预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106570537A(43)申请公布日2017.04.19(21)申请号201611031244.1(22)申请日2016.11.17(71)申请人天津大学地址300072天津市南开区卫津路92号(72)发明人侯春萍张倩楠王宝亮常鹏张荧允(74)专利代理机构天津市北洋有限责任专利代理事务所12201代理人程毓英(51)Int.Cl.G06K9/62(2006.01)权利要求书1页说明书4页(54)发明名称一种基于混淆矩阵的随机森林模型选择方法(57)摘要本发明公开一种基于混淆矩阵的随机森林模型选择方法,包括:a.以训练得到的决策树作为原始随机森林,各决策树在测试样本集上进行分类,得到各决策树分类结果的混淆矩阵,通过对随机森林中决策树的混淆矩阵两两作差,得到随机森林中任意两棵决策树的差值矩阵;将差值矩阵的F范数作为两棵决策树的相似性度量,建立随机森林的差异性度量矩阵;c.遍历差异性度量矩阵中不大于相似性阈值的元素;考察该元素所涉及的决策树的分类准确率大小:若低于分类准确率阈值则删除该决策树,将该决策树所在的矩阵行列上的所有元素置零,否则保留该决策树;完成随机森林的模型选择。CN106570537ACN106570537A权利要求书1/1页1.一种基于混淆矩阵的随机森林模型选择方法,包括下列步骤:a.以训练得到的决策树作为原始随机森林,各决策树在测试样本集上进行分类,得到各决策树分类结果的混淆矩阵,并根据各类别的样本数目对矩阵进行归一化;b.通过对随机森林中决策树的混淆矩阵两两作差,得到随机森林中任意两棵决策树的差值矩阵。将差值矩阵的F范数作为两棵决策树的相似性度量,以此为元素建立随机森林的差异性度量矩阵,矩阵元素为该元素所涉及的两棵决策树的相似性度量值;c.按照从小到大的顺序,遍历差异性度量矩阵中不大于相似性阈值的元素;考察该元素所涉及的决策树的分类准确率大小:若低于分类准确率阈值则删除该决策树,将该决策树所在的矩阵行列上的所有元素置零,否则保留该决策树;d.最终由差异性度量矩阵的非零元素所代表的决策树被集成进入新的随机森林,完成随机森林的模型选择。2CN106570537A说明书1/4页一种基于混淆矩阵的随机森林模型选择方法技术领域[0001]本发明涉及一种组合分类器。背景技术[0002]随机森林方面[0003]随机森林是基于组合学习思想的分类器,它使用若干决策树分类器构建产生随机森林,决策树分类器之间具有独立性,在一定的投票规则下各决策树对测试样本进行投票,通过表决产生最终结果。随机森林分类器继承了决策树分类器原理简明、易于施行的优点,同时克服了决策树分类器的过拟合缺点,并通过决策树之间的相互作用而拥有了组合分类器的附加优势,分类性能得到了提升。[0004]随机森林算法被提出后,很多科研人员对随机森林进行研究和改进。对随机森林的改进一般可以总结为两个方面,一是将随机森林与其他算法结合进行改进,二是对随机森林自身的组成原理和构建过程进行研究,比如对随机森林的特征选择和模型组合方法进行改进等。有的研究者将随机森林的投票过程与霍夫变换相结合,产生一种称为霍夫森林的分类器,在目标检测、动作识别等计算机视觉领域中有很好的应用。还有人将生存树的概念引入随机森林中,在训练样本抽取环节选用Bootstrap方法,之后对每一个训练子集建立一棵生成分析树,综合每棵树的生存函数进行总体投票结果的判断,所得到的这种分类算法称作随机生存森林算法,在高维数据分类中具有良好的效果。[0005]在针对随机森林算法自身构建过程进行的优化上,也取得了一定的效果。有的研究在形成决策树时,综合多个节点分裂算法组成线性函数,在同一棵决策树中不只使用一种分裂算法,而是结合不同的分裂算法进行分裂,在某些组合系数的情况下,可以提高随机森林的分类性能。[0006]在社会生产生活中,随机森林算法被用来在能源、交通运输、计算机视觉、基因工程等各个领域进行分类预测和回归预测。另外,随机森林算法可以估计样本属性的重要程度,因此也广泛地应用在数据降维和特征选择中。同时,由于随机森林在样本抽取和决策树生成过程中引入了随机性,其内在的独立性特点使其可以方便地进行并行化改造,从而应用在大数据处理环境中。[0007]混淆矩阵方面[0008]分类器集成是指在一定的组合策略下,将各个基分类器的判别结果进行整合,得到整体意义上较强的集成分类性能。一般认为,分类器的独立性、差异性及互补性是集成分类器取得良好性能的关键。其中,差异性的度量不像分类准确率的度量那么简单,通常分为基于结果的度量方法和基于结构的度量方法。[0009]混淆矩阵是一种分类结果的呈现方法,通过对样本类别及输出类别的统计,呈现出分类器的分类效果。在机器学习