预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共29页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114925837A(43)申请公布日2022.08.19(21)申请号202210294214.9(22)申请日2022.03.23(71)申请人华中农业大学地址430070湖北省武汉市洪山区狮子山街1号(72)发明人刘建晓雷继萌蔡纵横何欣怡郑婉婷(74)专利代理机构湖北武汉永嘉专利代理有限公司42102专利代理师刘琰(51)Int.Cl.G06N7/00(2006.01)G06N5/04(2006.01)G06F17/16(2006.01)G06F17/18(2006.01)权利要求书5页说明书13页附图10页(54)发明名称基于混合熵优化互信息的基因调控网络构建方法(57)摘要本发明公开了一种基于混合熵优化互信息的基因调控网络构建方法,该方法包括:根据设置的离散度对基因表达连续型数据进行离散化处理,根据真实概率与James‑Stein估计概率产生的均方误差MSE计算得到收缩强度λ;根据概率与熵值的转换公式,得到James‑Stein估计熵值;通过概率分布的β矩求导简化Dirichlet先验分布下的贝叶斯熵值估计,将两种熵值估计器得到的值转换为互信息矩阵;计算与互信息矩阵类似的Z‑score矩阵,将两个矩阵组合得到初始基因调控网络;根据路径一致算法进行遍历,通过动态阈值对基因调控网络中基因间关系进一步进行筛选,得到最终的基因调控网络。本发明解决了现有技术中构建网络存在大量错误调控关系的问题,得到了更准确的基因调控网络。CN114925837ACN114925837A权利要求书1/5页1.一种基于混合熵优化互信息的基因调控网络构建方法,其特征在于,该方法包括以下步骤:S1、获取基因表达连续型数据,根据设置的离散度对基因表达连续型数据进行离散化处理,计算并得到每个基因对应的计数向量;根据真实概率与James‑Stein估计概率产生的均方误差MSE计算得到收缩强度λ;S2、根据得到的收缩强度λ,计算无先验分布James‑Stein估计的概率,根据概率与熵值的转换公式,得到James‑Stein估计熵值;通过概率分布的β矩求导简化Dirichlet先验分布下的贝叶斯熵值估计,其中先验参数a通过收缩强度λ来计算,具体为当λ等于某一定值时使基于Dirichlet先验计算的概率等于贝叶斯估计下的概率,由此得到先验参数a与收缩强度λ的对应关系;根据熵值和互信息计算公式,将两种熵值估计器得到的值转换为互信息矩阵;S3、在对两种熵值估计的互信息矩阵进行优化的基础上,计算每个基因的Z‑score,进而计算每对基因的Z‑score,得到与互信息矩阵类似的Z‑score矩阵,将两个矩阵组合得到初始基因调控网络;S4、根据初始阈值筛选初始的基因调控网络中的调控关系,然后根据路径一致算法进行遍历,通过动态阈值对基因调控网络中基因间关系进一步进行筛选,得到最终的基因调控网络。2.根据权利要求1所述的基于混合熵优化互信息的基因调控网络构建方法,其特征在于,在所述S1步骤中:首先对连续基因表达数据集进行离散化;如果随机变量X的值分布在区间[a,b]中,则根据区间的大小将该区间划分为等距的子区间;子区间的数量表示为bin,离散化后的随机变量X如Eq.(1)所示:X=[X1,X2,X3,......,Xn](1)经过离散化操作后,随机变量X的n个变量Xi分布在K个bin中,其中K表示分布概率大于0的bin数量;每个bin对应的索引向量为xi,随机变量X对应的索引向量如Eq.(2)所示:χ=[x1,x2,x3,......,xK](2)此外,收缩目标t没有方差,但有更高的偏差;确定最佳收缩强度λ的第一步是选择合适的损失函数,使用平方误差作为损失函数;第二步是最小化风险函数R(λ),使用均方误差进行计算,如Eq.(3)所示:然后得到最小化MSE的收缩强度λ,如Eq.(4)所示:给定和得到Eq.(5):2CN114925837A权利要求书2/5页为了避免过度收缩,当令当出现负收缩时,令保证3.根据权利要求1所述的基于混合熵优化互信息的基因调控网络构建方法,其特征在于,在所述S2步骤中:James‑Stein收缩估计适用于高维数据集的基因网络推理计算,也就是说,James‑Stein收缩估计对具有少量样本的数据集具有更好的计算效果,James‑Stein收缩估计通过增加两个不同模型的权重以确保均方误差最小化,这两种模型分别为低偏差、高方差的高维模型和低偏差、高方差的低维模型;基于Dirichlet先验分布的贝叶斯估计具体为Beta分布的高维推广,在确定先验分布的参数a时,相当于向所有维度对应的单元格添加一个伪计数,为了得到先验参数a的值,考虑了先验参数与收缩强度λ之间的关系。4.根据权利要求3所述的基于混合