预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108846259A(43)申请公布日2018.11.20(21)申请号201810386382.4(22)申请日2018.04.26(71)申请人河南师范大学地址453007河南省新乡市建设东路46号(72)发明人孙林李源邹宁徐天贺韩庆阳孔祥琳张霄雨赵婧秦小营殷腾宇朱帅浩王学敏(74)专利代理机构郑州睿信知识产权代理有限公司41119代理人吴敏(51)Int.Cl.G06F19/22(2011.01)G06F19/24(2011.01)权利要求书3页说明书12页附图7页(54)发明名称一种基于聚类和随机森林算法的基因分类方法及系统(57)摘要本发明涉及一种基于聚类和随机森林算法的基因分类方法及系统,属于生物信息技术领域。本发明首先获取基因样本数据,利用聚类算法对获取的基因样本数据进行聚类,得到聚类中心,用得到的聚类中心集补充训练样本集;然后将传统随机森林算法中固定的决策树随机描述属性个数调整为随机值,一方面要保留决策树集中较强的决策树,另一方面要减少决策树集的平均随机描述属性个数,进而降低决策树之间的相关性;最后利用随机森林模型中每棵决策树对待分类的基因数据进行预测。本发明通过聚类算法得到的聚类中心作为人造数据对随机森林模型的训练集进行扩充,使随机森林模型得到充分的训练,得到的分类模型精度较高,提高了对基因数据分类的准确性。CN108846259ACN108846259A权利要求书1/3页1.一种基于聚类和随机森林算法的基因分类方法,其特征在于,该基因分类方法包括以下步骤:1)获取基因样本数据,利用聚类算法对获取的基因样本数据进行聚类,得到聚类中心;2)将得到的聚类中心补充到基因样本数据中,形成数据集,并在数据集中抽取至少两个训练集,每个训练集生成一个子树,在随机森林模型每棵子树生成过程中选取基因数据中Ft个描述属性,找出信息增益率最大的描述属性作为分类属性,分裂每个节点直到所有叶节点中的样本都属于同一类,生成决策树,由生成的各决策树组成决策树集;3)利用决策树集中每棵决策树对待分类的基因数据进行预测,将预测结果的众数作为该基因数据的分类。2.根据权利要求1所述的基于聚类和随机森林算法的基因分类方法,其特征在于,所述步骤1)中的聚类算法采用K-means++算法,在K-means++算法进行聚类过程中,采用Rsim函数来衡量样本间的相似度,Rsim函数表达式为:其中d为基因样本数据的样本维度,和分别表示两个d维向量,xi和yi分别为向量和的i维属性值,min(xi,yi)代表xi和yi中绝对值较小的一个。3.根据权利要求1所述的基于聚类和随机森林算法的基因分类方法,其特征在于,所述步骤1)中的聚类算法采用K-means++算法,在K-means++算法进行聚类过程中,在Rsim的基础上定义Sim函数来衡量样本间的相似度,Sim函数表达式为:其中d为基因样本数据的样本维度,和分别表示两个d维向量,xi和yi分别为向量和的i维属性值,min(xi,yi)代表xi和yi中绝对值较小的一个,为向量和的余弦系数。4.根据权利要求2或3所述的基于聚类和随机森林算法的基因分类方法,其特征在于,所述步骤2)中在进行随机森林模型训练时所选取的描述属性个数Ft是随机的,其表达式为:设训练集样本的描述属性数为L,rand(a1,b1)为区间(a1,b1)内的一个随机数,参数kp的取值区间为5.根据权利要求1所述的基于聚类和随机森林算法的基因分类方法,其特征在于,所述2CN108846259A权利要求书2/3页步骤1)在对基因样本数据聚类前,需要对基因样本数据进行降维处理。6.一种基于聚类和随机森林算法的基因分类系统,其特征在于,该基因分类系统包括存储器和处理器,以及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器与所述存储器相耦合,所述处理器执行所述计算机程序时实现以下步骤:1)获取基因样本数据,利用聚类算法对获取的基因样本数据进行聚类,得到聚类中心;2)将得到的聚类中心补充到基因样本数据中,形成数据集,并在数据集中抽取至少两个训练集,每个训练集生成一个子树,在随机森林模型每棵子树生成过程中选取基因数据中Ft个描述属性,找出信息增益率最大的描述属性作为分类属性,分裂每个节点直到所有叶节点中的样本都属于同一类,生成决策树,由生成的各决策树组成决策树集;3)利用决策树集中每棵决策树对待分类的基因数据进行预测,将预测结果的众数作为该基因数据的分类。7.根据权利要求6所述的基于聚类和随机森林算法的基因分类系统,其特征在于,所述步骤1)中的聚类算法采用K-means++算法,在K-means++算法进行聚类过程中,采用Rsim函数来衡量样本间的相似度,Rsim函数表