预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106599615A(43)申请公布日2017.04.26(21)申请号201611081932.9(22)申请日2016.11.30(71)申请人广东顺德中山大学卡内基梅隆大学国际联合研究院地址528300广东省佛山市顺德区大良街道办事处云路社区居民委员会南国东路9号申请人中山大学广东工业大学(72)发明人邹小勇夏飞迪王洋戴宗(74)专利代理机构广州粤高专利商标代理有限公司44102代理人林丽明(51)Int.Cl.G06F19/22(2011.01)G06F19/24(2011.01)权利要求书2页说明书14页附图3页(54)发明名称一种预测miRNA靶基因的序列特征分析方法(57)摘要本发明公开了一种预测miRNA靶基因的序列特征分析方法。该方法基于CLASH实验数据集,构造了27个miRNA-靶位点配对序列相关特征,结合传统特征,组成了一个包含84个特征值的特征集合;并使用随机森林模型进行机器学习,构造miRNA靶基因预测模型,进行miRNA靶基因识别。本方法构建的模型具有很好的准确率、敏感度、特异性、精确度,可以较为准确地预测miRNA靶基因。CN106599615ACN106599615A权利要求书1/2页1.一种预测miRNA靶基因的序列特征分析方法,其特征在于,包括如下步骤:S1:收集数据集,构造正负样本选择CLASH数据集作为正样本,并根据该数据集构造负样本,将CLASH数据集中的miRNA与靶位点序列随机配对,删除其中的正样本,再从剩余的数据集中随机选择18514条作为负样本;S2:根据传统特征的计算方法,计算样本传统特征的特征值根据所采用的传统特征,计算每一个样本的特征值,并结合传统特征值构建样本特征向量;S3:计算miRNA与靶位点结合序列特征,并构建样本特征向量采用改进的Smith-Waterman方法将正负样本进行序列匹配,并转换为二进制序列;再根据正样本序列匹配的情况构造权重向量w,并以此向量计算正负样本的序列匹配得分特征;提出了miRNA-靶位点配对序列特征,结合传统特征,组成了一个包含84个特征值的特征集合;S4:构建模型进行miRNA靶基因识别采用随机森林的方法构建miRNA靶基因预测模型,并训练模型的参数;S5:模型测试。2.根据权利要求1所述的方法,其特征在于,步骤S1的具体方法为:S11.从CLASH数据集选择正样本数据,所述正样本数据包含miRNA名、miRNA序列、靶位点所属的mRNA名、靶位点在mRNA上的起始位置、靶位点在mRNA上的终止位置、靶位点序列;其中,所述靶位点所属的mRNA名取自ENSEMBL数据库;S12.将正样本中所涉及到的miRNA和靶位点信息随机匹配,去除掉其中的正样本,然后从中随机抽选18514条数据,作为负样本;其中,正负样本比例为1:1。3.根据权利要求1所述的方法,其特征在于,步骤S2的具体方法为:基于文献报道,选择miRNA与其靶基因结合的传统特征,并根据特征描述计算其特征值;所述传统特征包括:miRNA与其靶位点结合成双链的最小自由能、miRNA种子区域配对、靶位点可接入性、种子区域附近AU含量、种子区域的保守性、侧翼链的保守性、双链配对个数、靶位点长度、最长连续配对长度、最长连续序列位置、miRNA3’端的配对数目、miRNA种子区与3’端配对差、miRNA伪二核苷酸特征、靶位点序列伪二核苷酸特征、靶位点AC个数、靶位点UG个数、靶位点AG个数、靶位点CG个数、靶位点GC含量、靶位点上游GC含量和靶位点3’端GC含量。4.根据权利要求1所述的方法,其特征在于,步骤S3的具体方法为:S31.使用改进的Smith-Waterman算法,即按照碱基A:U和G:C互补配对原则,允许G:U错配,对每一个样本中miRNA序列和靶位点序列进行序列匹配;S32.基于S31的序列匹配情况,从miRNA序列5’端的第一个核苷酸开始,和靶位点序列对应的核苷酸进行比对,如果匹配,则用“1”表示,如果不匹配,则用“0”表示;因为CLASH数据集中大部分miRNA的长度为23,因此本方法将每一条miRNA与靶位点结合后的双链转换为了23个“0”或“1”组成的二进制序列,如果miRNA的长度小于23,则该特征值用0补充;如果miRNA长度大于23,多出来的特征值不予考虑;最后,将这23个特征值加入特征集;S33.根据正样本对应的二进制序列,可以计算正样本中miRNA每一个核苷酸位置配对2CN106599615A权利要求书2/2页成功的概率,并以此可以构造权重向量w;S34.根据描述,计算序列匹配得分,并加入到特征集合中;对于miRNA上第i位的匹配情况xi,都有其对应的权值wi;因此,构建了”全序