基于部分互信息和贝叶斯打分函数的基因调控网络构建算法
刘飞1,2, 张绍武1, 高红艳2     
1. 西北工业大学 自动化学院 信息融合教育部重点实验室, 陕西 西安 710072;
2. 宝鸡文理学院 物理与光电技术学院, 陕西 宝鸡 721016
摘要: 从基因表达数据出发重构基因调控网络,可有效挖掘基因间调控关系,深层次地理解生物调控过程。传统的相关性系数模型、偏相关系数模型仅能发现基因间线性关系,而互信息和条件互信息可用于发现基因间的非线性关系,且能够处理高维低样本基因表达数据。但互信息过高估计基因间的相关性,条件互信息过低估计基因间的相关性,从而导致推断出的基因网络假阳性率和假阴性率较高,且不能推断基因调控方向。因而,基于部分互信息和贝叶斯打分函数,提出一种新的基因调控网络构建算法(命名为PMIBSF)。基于部分互信息,PMIBSF算法首先删除初始基因相关网络中的冗余关联边,然后采用贝叶斯网络互信息测试打分函数学习贝叶斯网络结构,快速构建基因调控网络。在计算机模拟网络和真实生物分子网络上,仿真实验结果表明:PMIBSF性能优于目前较流行的LP、PC-alg、NARROMI和ARACNE算法,可高精度构建基因调控网络。
关键词: 部分互信息     互信息测试打分     贝叶斯网络     协方差矩阵     基因调控网络    

随着基因芯片技术和高通量测序技术的发展, 产生了大量的基因表达数据。从这些基因表达数据出发构建复杂的基因调控网络(gene regulatory networks, GRNs), 可有效描述一个物种或者组织内基因间的相互作用关系, 进而在生物分子网络角度认识生命现象并揭示生命活动的基本规律, GRNs重构有助于理解基因间的调控机理、预测未知基因功能、认识疾病发病机理、加速药物研发[1-3]。近年来涌现出许多基因调控网络的重构方法模型, 如皮尔逊相关系数模型[1]、常微分方程模型[4]、随机网络模型[5]、布尔网络模型[6]、回归模型[7]、线性规划模型[8]和贝叶斯网络模型[9]等, 每一种模型方法都有各自的优点和局限性。

皮尔逊相关系数(pearson correlation coefficient, PCC)模型是一种最常用的基因调控网络构建方法, 它可以发掘基因变量间的线性相关性, 但是不能识别基因变量间是直接调控还是间接调控。偏相关性(partial correlation, PC)由于考虑了额外的相关信息可以克服PCC模型的局限性, 发现基因变量间的直接调控关系。Barzel等人[10]应用PC指标构建了一种动态相关性基因调控网络, 消除网络中基因间的间接影响, 从而区分基因间的直接调控和间接调控。但是这两种方法只能识别基因变量间的线性相关性, 不能识别基因变量间的非线性相关性, 而在真实生物分子网络中基因间的非线性相关性扮演了一个很重要的角色。互信息(mutual information, MI)和条件互信息(conditional mutual information, CMI)不仅可以从高维低样本基因表达数据中发现基因变量间的线性关系, 也可以发现基因变量间的非线性关系。因而, 基于互信息和条件互信息, 涌现出了许多基因调控网络构建方法[11-12]。但是互信息过高地估计了基因变量之间的相互作用关系, 导致推断出的基因网络有较多的假阳性边; 而条件互信息往往过低地估计了基因变量之间的相关性, 从而导致推断出的基因网络有较高的假阴性边。鉴于此, Zhao等人[13]提出采用部分互信息(part mutual information, PMI)度量基因变量间的相关性, 但PMI不能确定基因间的调控关系, 而基因间调控方向的确定可通过贝叶斯打分策略来实现。贝叶斯打分策略通过打分函数, 在搜索空间找出一个得分最高的网络结构。打分函数一般包括:贝叶斯统计方法[14-15]、等价贝叶斯信息准则(BIC)方法[16]、最小描述长度(MDL)方法[17-18]、熵信息方法[17]和互信息测试打分函数(MIT)等。MIT是一种非常通用打分测试函数, 利用显著性水平下的卡方分布值来估算基因结点间的调控关系, 具有搜索空小、时间复杂度低等优点。

针对基于互信息和条件互信息构建的基因网络假阳性/假阴性率高、偏互信息不能确定基因调控方向问题, 本文从基因表达数据出发, 首先构建基因完全图, 然后采用部分互信息构建稀疏基因相关网络, 采用贝叶斯网络互信息测试打分函数确定基因调控方向, 提出一种新的基因调控网络构建算法(命名为PMIBSF), 快速构建基因调控网络, 并在计算机模拟网络和真实生物基因调控网络上验证PMIBSF算法性能。

1 理论方法 1.1 互信息和条件互信息

基于信息论的互信息和条件互信息不仅可以度量基因间的非线性相关性, 且能够有效处理高维低样本基因表达数据, 广泛被用来构建基因相关网络, 且效果较好。

若基因表达数据用向量X(或Y)表示, 向量元素表示基因在不同时间或不同条件下的表达值, 则基因变量XY之间相关性可用互信息MI(X, Y)度量。

(1)

式中,p(x)表示基因变量Xx时的概率值, p(x, y)表示基因变量XY分别为xy时的联合概率值。为方便计算, 根据高斯核概率密度函数[19], 上式可以写为:

(2)

式中,C表示基因变量的协方差矩阵, |C|表示矩阵C的行列式。如果基因变量XY相互独立, 则互信息值MI(X, Y)为零。

条件互信息表示2个基因变量在第3个基因变量条件下的条件依赖性, 基因变量XY在基因变量Z条件下的条件互信息CMI(X, Y|Z)定义如下:

(3)

式中,p(x|z)和p(y|z)分别表示基因变量XY在基因Z条件下的概率, p(x, y|z)表示基因变量XY在基因Z条件下的联合概率, p(x, y, z)表示基因变量XYZ的联合概率。为方便计算, 类似公式(2), 公式(3)可简化为:

(4)

如果基因变量XY在变量Z条件下相互独立, 则条件互信息值CMI(X, Y|Z)为零。

1.2 部分互信息

互信息在测量2个变量之间的相关性时, 往往过高地估计了两者之间的相关性, 从而导致了网络有较高的假阳性边。条件互信息在测量2个变量之间的相关性时, 往往过低地估计了两者之间的相关性, 从而导致了网络有较高的假阴性边。为此, Zhao等人[13]提出采用部分互信息(part mutual information, PMI)[20]降低假阳率和假阴性率。

假设XY表示2个随机变量, 如果它俩彼此独立, 它们之间的相关性为零, 则

(5)

同理如果随机变量XY在变量Z条件下彼此独立, 则

(6)

随机变量XY在给定变量Z条件下的部分独立性定义如下[20]:

(7)

式中,,

根据部分独立性公式(7)和KL距离(Kullback-Leibler divergence)[21], PMI定义如下:

(8)

式中,p(x, y, z)表示基因变量XYZ联合概率分布, D(p(x, y, z)‖p*(x|z)p*(y|z)p(z))表示p(x, y, z)到p*(x|z)p*(y|z)p(z)的KL距离, PMI的公式也可以写成[20]:

(9)

根据公式(1)和(7), PMI的公式进一步可写为[20]:

(10)
1.3 贝叶斯网络的互信息测试打分策略

对于一个随机变量X={X1, X2, …, Xn}, 贝叶斯网络(Bayesian network, BN)就是这些变量之间概率统计关系的一个图模型, 而且它是一个有向无环图G。在贝叶斯网络中, 顶点(结点)就是随机变量(基因), 边就是随机变量(基因)之间的概率依赖。假如在结点A到结点B有一条有向边, 那么我们就称结点A是结点B的父亲, 结点B是结点A的孩子。一个结点在给定父结点的情况下, 根据马尔可夫(Markov)假设, 这个结点和它的非子孙结点都是相互独立的, 可以用P(X1, X1, …, Xn)这个联合概率分布来表示。基于图模型, 它可以分解为一系列条件概率的乘积, 表达式如下:

(11)

式中,Pa(Xi)为图G中结点Xi的父结点集合。

贝叶斯网络结构学习的目标就是基于训练数据D, 找到与数据D匹配程度最高的贝叶斯网络结构。目前, 贝叶斯网络结构学习可通过约束方法和打分搜索方法实现。鉴于互信息测试(mutual information test, MIT)[22]打分函数的良好性能, 常用来对贝叶斯网络结构进行打分。

X={X1, X2, …, Xn}对应的样本分别为{r1, r2, …, rn}, 数据集D中共有N个样本, G表示贝叶斯网络, Pai={Xi1, Xi2, …, Xisi}表示结点Xi所有父结点集合, 其对应的样本为{ri1, ri2, …, risi}, si为父结点个数, 互信息测试打分函数定义如下[22]:

(12)
(13)

MI(Xi, Pai)表示结点Xi和其父结点的互信息值, χα, liσi(j)表示显著性水平α下的卡方分布值, σi={σi(1), σi(2), …, σi(si)}为父结点Pai={Xi1, Xi2, …, Xisi}索引集合{1, 2, …, si}的一个随机置换。

1.4 PMIBSF算法

PMIBSF算法由四部分组成:1) 生成初始基因完全图; 2) 运用部分互信息稀疏化基因完全图; 3) 利用互信息测试打分函数对所有可能的基因网络结构打分; 4) 确定得分最大的基因网络结构为最终的基因调控网络。图 1为PMIBSF算法流程框图, 其计算步骤如下:

图 1 PMIBSF算法流程图

1) 根据表达基因个数生成初始完全网络图Gf

2) 运用部分互信息(PMI)对初始基因完全图进行稀疏化。基因调控网络具有小世界性, 是一种典型的稀疏网络。基因对之间的相关性计算指标可以计算所有基因对之间的相关性, 如果基因对之间具有显著性较低的相关性值, 则删除初始基因相关网络Gf中对应的网络边, 以此对Gf网络进行稀疏化。避免了互信息、条件互信息的假阳性率和假阴性率高的问题, 我们采用PMI度量基因间相关性, 根据P-value的显著性, 删除Gf网络中冗余的假阳性边, 生成稀疏基因相关网络Gp

3) 基于贝叶斯网络测试打分函数(MIT)对稀疏基因相关网络Gp打分。基因相关网络Gp是一种无向网络, 不能确定基因间的调控关系, 而基因间调控方向的确定可通过贝叶斯MIT打分策略来实现, 我们对网络Gp所有可能的拓扑结构用MIT进行打分排序。

4) 确定最终基因调控网络Gl。找出得分最大的网络图作为最终的基因调控网络Gl

2 结果与讨论 2.1 数据集和评价指标

为了评价算法性能, 本文在3个计算机模拟网络、1个人工合成网络和1个真实生物基因网络数据上, 验证PMIBSF算法构建基因调控网络性能。计算机模拟网络(data10, data50, data100)数据来自于DREAM竞赛数据[23], 该竞赛数据包含基因表达数据和标准网络, 其网络是经实验验证了的酵母(yeast)和大肠杆菌(escherichia coli)调控网络。data10、data50和data100网络分别包含10、50、100个基因和10、77、166条基因调控边。人工合成网络数据IRMA来自于文献[24], 该网络为酿酒酵母(yeast saccharomyces cerevisiae)合成网络, 包含5个基因、6条基因调控边。真实生物分子网络数据为大肠杆菌SOS DNA修复网络数据[25], 包含9个基因, 24条基因调控边。

采用真阳性率(true positive rate, TPR)、假阳性率(flase positive rate, FPR)、阳性预测率(positive predictive, PPV)、错误发现率(flase discovery rate, FDR)、F值、精确度(accuracy, ACC)和Matthews相关系数(MCC)指标评价PMIBSF算法性能, 这些指标定义如下[3]:

式中, TP表示调控边的正确预测数目, TN表示非调控边的正确预测数目, FP表示真实非调控边误预测为调控边的数目, FN表示真实调控边误预测为非调控边的数目。

2.2 部分互信息性能分析

我们首先通过图 2中的简单示例对比分析互信息(MI)、条件互信息(CMI)和部分互信息(PMI)构建基因相关网络的优劣性, 然后在合成生物网络上进一步说明部分互信息(PMI)构建基因相关网络的优越性。

图 2 基因相关网络(线的粗细表示基因间相关性的强弱)

图 2中, 结点XYZ表示3个基因变量, 它们之间的线表示基因间的相互作用关系, 线的粗细表示相关性的强弱。图 2a)中, 基因变量XY彼此是独立的(即它俩的相关性为零), 它们和变量Z都有一定的相关性, 运用互信息公式(2)计算结点XY之间的相关性, 其互信息值大于零, 实际上XY没有相互作用关系, 即它间的相关性应该为零, 而XY之间PMI值为零; 可见MI过高地估计了变量之间的关系, 而PMI能够正确地预测变量XY之间的相关性。图 2b)中, 基因变量XY是相关的, 变量XZ之间的相关性较强, 变量YZ之间的相关性较弱, 通过计算可知XY之间的CMI值等于零, 实际上XY的相关性不为零, 而XY间的PMI值大于零; 可见CMI过低地估计变量XY之间的关系, 而PMI能够正确地预测变量XY之间的相关性。

我们进一步采用MI、CMI和PMI 3种方法对IRMA数据构建基因调控网络, 仿真验证结果见表 1。MI方法和PMI方法的真阳率指标都高达0.833, 而CMI方法的真阳率指标却只有0.667, 这是因为CMI过低地估计了基因变量之间的作用关系, 导致一些真实的调控边被遗漏。在假阳性率(FPR)方面, 基于MI的方法取得了最差的效果, 这是因为互信息过高地估计了基因变量之间的相互作用关系, 导致推断出的基因网络有较多的假阳性边。在错误发现率(FDR)、阳性预测率(PPV)、F值、精确度(ACC)和Matthews相关系数等方面的指标上, 基于PMI的方法都取得了最好的结果, 这充分证明了部分互信息是一种比较有效的基因间相关性度量指标。

表 1 MI、CMI和PMI 3种指标在IRMA数据上的实验结果比对
指标 TPR FPR FDR PPV F ACC MCC
MI 0.833 0.571 0.615 0.385 0.526 0.550 0.252
CMI 0.667 0.500 0.636 0.364 0.471 0.550 0.154
PMI 0.833 0.357 0.500 0.500 0.625 0.700 0.436
2.3 实验结果与分析

首先在deata10基因网络模拟数据集上, 验证PMIBSF算法的基因调控网络构建性能, 并与Zhao[13]方法进行比较。图 3a)是data10数据的标准网络, 图 3b)是Zhao[13]方法构建的基因相关网络(无向网络), 预测出9条正确的相关边, 没能预测出基因4和9之间的相关边。图 3c)为我们PMIBSF算法构建的基因调控网络, PMIBSF算法不仅预测出了9条基因相关边, 且正确预测出7条有向调控边, 说明PMIBSF算法可以较为准确地构建基因调控网络。

图 3 不同方法构建data10基因网络

然后, 在data50和data100基因网络模拟数据集上, 验证PMIBSF算法的基因调控网络构建性能, 并与目前比较流行的算法LP[26]、PC-alg[27]、NARROMI[11]和ARACNE[12]比较。LP是一种线性规划基因调控网络构建模型, 利用目标函数优化问题使得构建的网络稀疏性和可靠性较高; PC-alg是一种基于路径一致贪婪迭代的基因调控网络构建算法, 其运行速度较快; 而NARROMI和ARACNE都是基于信息论的基因调控网络构建方法。PMIBSF方法和其他4种基因调控网络构建算法在data50和data100数据集上的实验结果如表 2所示。从表中可以看出在data50数据集上, PMIBSF和ARACNE算法的构建精度大于LP、PC-alg和NARROMI算法, 且假阳性率较低, 在错误发现率(FDR), F值和Matthews相关系数(MCC)等指标方面也明显高于其他3种方法, 这说明PMIBSF和ARACNE算法可以高精度地构建基因网络。在data100数据集上, PMIBSF算法在各项性能指标上明显大于LP、PC-alg、NARROMI和ARACNE算法, 取得了较好的性能, 在PPV、F值、ACC和MCC系数指标上, PMIBSF算法比ARACNE算法分别高了0.276、0.104、0.024和0.089。在data50数据集上ARACNE算法的F值指标比PMIBSF算法略高一些, 错误发现率(FDR)却比PMIBSF算法的差一些, 这是因为ARACNE方法采用的互信息过高地估计了基因变量之间的相关性所导致, 但在data100数据集上PMIBSF算法的F值指标却明显高于ARACNE算法, 这说明在中大规模基因调控网络构建上PMIBSF算法更为有效。

表 2 data50和data100大规模基因网络数据集上5种算法实验结果比对
数据集 方法 TPR FPR FDR PPV F值 ACC MCC
data50 LP 0.389 0.085 0.870 0.130 0.195 0.899 0.182
PC-alg 0.428 0.071 0.711 0.289 0.345 0.898 0.299
NARROMI 0.532 0.062 0.783 0.217 0.308 0.925 0.307
ARACNE 0.584 0.040 0.676 0.324 0.417 0.949 0.411
PMIBSF 0.377 0.016 0.567 0.433 0.403 0.965 0.386
data100 LP 0.404 0.046 0.870 0.130 0.196 0.944 0.206
PC-alg 0.457 0.026 0.624 0.376 0.142 0.956 0.392
NARROMI 0.277 0.010 0.676 0.324 0.299 0.978 0.289
ARACNE 0.506 0.033 0.793 0.207 0.293 0.959 0.306
PMIBSF 0.337 0.006 0.517 0.483 0.397 0.983 0.395

最后, 为了进一步说明PMIBSF算法构建基因调控网络的精确性, 在真实生物分子SOS大肠杆菌网络数据上进行了验证, 并与LP、PC-alg、NARROMI和ARACNE 4种算法进行了比较, 详细的实验结果见表 3。在真阳率方面, PMIBSF算法高于LP和PC-alg算法, 却低于NARROMI和ARACNE算法, 这是由于NARROMI和ARACNE算法都是基于MI的方法, 推断出的基因网络冗余边数较多, 使得NARROMI和ARACNE算法构建的网络真阳率指标较好, 但假阳率也过高。在假阳率方面PMIBSF算法取得较好的结果, 但是却高于LP算法, 这是由于LP算法构建的GRNs过稀疏所导致。在其他的PPV、F值、ACC和MCC系数等指标上, PMIBSF算法都取得了最好的效果, 这说明PMIBSF算法在真实生物分子网络上也可以高精度地构建基因网络。

表 3 SOS基因网络数据集上5种算法实验结果比对
数据集 方法 TPR FPR FDR PPV F值 ACC MCC
SOS LP 0.208 0.146 0.583 0.417 0.278 0.639 0.079
PC-alg 0.500 0.375 0.600 0.400 0.444 0.583 0.120]
NARROMI 0.667 0.458 0.579 0.421 0.516 0.583 0.197
ARACNE 0.708 0.625 0.638 0.362 0.479 0.486 0.083
PMIBSF 0.5833 0.250 0.462 0.539 0.560 0.694 0.327
3 结论

本文基于部分互信息和贝叶斯网络互信息测试打分函数, 提出一种基因调控网络构建算法(PMIBSF)。PMIBSF算法采用PMI高精度构建基因相关网络, 利用贝叶斯网络互信息测试打分函数确定基因间调控方向, 避免了互信息、条件互信息的假阳性率和假阴性率高的问题, 解决了信息论方法不能确定网络方向的局限性。计算机模拟数据和真实生物基因网络数据上的仿真实验结果, 说明PMIBSF算法可高精度构建基因调控网络, 但PMIBSF算法计算复杂度相对较高。如何进一步降低PMIBSF算法的时间复杂度使其能够构建较大规模的基因调控网络, 及在互信息测试打分过程中如何缩小搜索范围, 快速准确构建基因调控网络方面仍需进一步研究。

参考文献
[1] Stuart J M, Segal E, Koller D, et al. A Gene-Coexpression Network for Global Discovery of Conserved Genetic Modules[J]. Science, 2003, 302(5643): 249-255. DOI:10.1126/science.1087447
[2] Wu J, Zhao X, Lin Z, et al. Large Scale Gene Regulatory Network Inference with a Multi-Level Strategy[J]. Molecular Biosystems, 2016, 12(2): 588-597. DOI:10.1039/C5MB00560D
[3] Liu F, Zhang S W, Guo W F, et al. Inference of Gene Regulatory Network Based on Local Bayesian Networks[J]. PLos Computational Biology, 2016, 12(8): e1005024. DOI:10.1371/journal.pcbi.1005024
[4] Sakamoto E, Iba H. Inferring a System of Differential Equations for a Gene Regulatory Network By Using Genetic Programming[C]//Proceedings of the 2001 Congress on Evolutionary, 2001:720-726
[5] Huynhthu V A, Irrthum A, Wehenkel L, et al. Inferring Regulatory Networks from Expression Data Using Tree-Based Methods[J]. Plos One, 2010, 5(9): 4439-4451.
[6] Shmulevich I, Dougherty E R, Kim S, et al. Probabilistic Boolean Networks:a Rule-Based Uncertainty Model for Gene Regulatory Networks[J]. Bioinformatics, 2002, 18(2): 261-274. DOI:10.1093/bioinformatics/18.2.261
[7] Honkela A, Girardot C, Gustafson E H, et al. Model-Based Method for Transcription Factor Target Identification with Limited Data[J]. Proceedings of the National Academy of Sciences, 2010, 107(17): 7793-7798. DOI:10.1073/pnas.0914285107
[8] Zhu H, Rao R S P, Zeng T, et al. Reconstructing Dynamic Gene Regulatory Networks from Sample-Based Transcriptional Data[J]. Nucleic acids research, 2012, 40(21): 10657-10667. DOI:10.1093/nar/gks860
[9] Young W C, Raftery A E, Yeung K Y. Fast Bayesian Inference for Gene Regulatory Networks Using ScanBMA[J]. BMC Systems Biology, 2014, 8(1): 47-47. DOI:10.1186/1752-0509-8-47
[10] Barzel B, Barabási A L. Network Link Prediction by Global Silencing of Indirect Correlations[J]. Nature Biotechnology, 2013, 31(8): 720-725. DOI:10.1038/nbt.2601
[11] Zhang X, Liu K, Liu Z P, et al. NARROMI:a Noise and Redundancy Reduction Technique Improves Accuracy of Gene Regulatory Network Inference[J]. Bioinformatics, 2013, 29(1): 106-113. DOI:10.1093/bioinformatics/bts619
[12] Margolin A A, Nemenman I, Basso K, et al. ARACNE:an Algorithm for the Reconstruction of Gene Regulatory Networks in a Mammalian Cellular Context[J]. BMC Bioinformatics, 2006, 7(1): S7. DOI:10.1186/1471-2105-7-7
[13] Zhao J, Zhou Y, Zhang X, et al. Part Mutual Information for Quantifying Direct Associations in Networks[J]. Proceedings of the National Academy of Sciences, 2016, 113(18): 5130-5135. DOI:10.1073/pnas.1522586113
[14] Cooper G F, Herskovits E. A Bayesian Method for the Induction of Probabilistic Networks from Data[J]. Machine Learning, 1992, 9(4): 309-347.
[15] Heckerman D, Geiger D, Chickering D M. Learning Bayesian Networks:The Combination of Knowledge and Statistical Data[J]. Machine Learning, 1995, 20(3): 197-243.
[16] Schwarz G. Estimating the Dimension of a Model[J]. The Annals of Statistics, 1978, 6(2): 461-464. DOI:10.1214/aos/1176344136
[17] Hansen M H, Yu B. Model Selection and the Principle of Minimum Description Length[J]. Journal of the American Statistical Association, 2001, 96(454): 746-774. DOI:10.1198/016214501753168398
[18] Lam W, Bacchus F. Learning Bayesian Belief Networks:an Approach Based on the Mdl Principle[J]. Computational Intelligence, 1994, 10(3): 269-293. DOI:10.1111/coin.1994.10.issue-3
[19] Basso K, Margolin A A, Stolovitzky G, et al. Reverse Engineering of Regulatory Networks in Human B Cells[J]. Nature Genetics, 2005, 37(4): 382-390. DOI:10.1038/ng1532
[20] Janzing D, Balduzzi D, Grosse-Wentrup M, et al. Quantifying Causal Influences[J]. The Annals of Statistics, 2013, 41(5): 2324-2358. DOI:10.1214/13-AOS1145
[21] Schreiber T. Measuring Information Transfer[J]. Physical Review Letters, 2000, 85(2): 461-4. DOI:10.1103/PhysRevLett.85.461
[22] Campos L M. A Scoring Function for Learning Bayesian Networks Based on Mutual Information and Conditional Independence Tests[J]. Journal of Machine Learning Research, 2006, 7(2): 2149-2187.
[23] Schaffter T, Marbach D, Floreano D. GeneNetWeaver:in Silico Benchmark Generation and Performance Profiling of Network Inference Methods[J]. Bioinformatics, 2011, 27(16): 2263-2270. DOI:10.1093/bioinformatics/btr373
[24] Cantone I, Marucci L, Iorio F, et al. A Yeast Synthetic Network for in Vivo Assessment of Reverse-Engineering and Modeling Approaches[J]. Cell, 2009, 137(1): 172-181. DOI:10.1016/j.cell.2009.01.055
[25] Shen-Orr S S, Milo R, Mangan S, et al. Network Motifs in the Transcriptional Regulation Network of Escherichia Coli[J]. Nature Genetics, 2002, 31(1): 64-68. DOI:10.1038/ng881
[26] Wang Y, Joshi T, Zhang X S, et al. Inferring Gene Regulatory Networks from Multiple Microarray Datasets[J]. Bioinformatics, 2006, 22(19): 2413-2420. DOI:10.1093/bioinformatics/btl396
[27] Kalisch M, Bühlmann P. Estimating High-Dimensional Directed Acyclic Graphs with the PC-Algorithm[J]. Journal of Machine Learning Research, 2007, 8: 613-636.
Inferring Gene Regulatory Networks Based on Part Mutual Information and Bayesian Scoring Function
Liu Fei1,2, Zhang Shaowu1, Gao Hongyan2     
1. Key Laboratory of Information Fusion Technology of Ministry of Education, School of Automation, Northwestern Polytechnical University, Xi'an 710072, China;
2. Institute of Physics and Optoelectronics Technology, Baoji University of Arts and Science, Baoji 721016, China
Abstract: The inference of gene regulatory networks (GRNs) from expression data can mine the direct regulations among genes and gain deep insights into biological processes at a network level. The most widely used criteria are the Pearson correlation coefficient and partial correlation, but they can only measure linearly direct association and miss nonlinear associations. Mutual information (MI) and conditional Mutual information (CMI) not only can overcome those disadvantages, but also can process the gene expression data which are high dimensional and low samples. MI and CMI are widely used in quantifying both linear and nonlinear associations, but they suffer from the serious problems of overestimation and underestimation. GRNS based on MI and CMI suffer from higher false-positive and false-negative problem and can't identify the directions of regulatory interactions. By using the partial mutual information (PMI) and Bayesian scoring function (BSF), in this work, we present a novel algorithm (namely PMIBSF). Tested on the Synthetic networks as well as real biological molecular networks with different sizes and topologies, the results show that PMIBSF can infer RGNs with higher accuracy. The PMIBSF's performance outperforms other state-of-the-art methods, such as LP, PC-alg, NARROMI and ARACNE.
Key words: part mutual information     mutual information test Scoring     Bayesian network     covariance matrix     gene regulatory network    
西北工业大学主办。
0

文章信息

刘飞, 张绍武, 高红艳
Liu Fei, Zhang Shaowu, Gao Hongyan
基于部分互信息和贝叶斯打分函数的基因调控网络构建算法
Inferring Gene Regulatory Networks Based on Part Mutual Information and Bayesian Scoring Function
西北工业大学学报, 2017, 35(5): 876-883.
Journal of Northwestern Polytechnical University, 2017, 35(5): 876-883.

文章历史

收稿日期: 2017-03-01

相关文章

工作空间