一种基于混淆矩阵的随机森林模型选择方法-豆柴文库

一种基于混淆矩阵的随机森林模型选择方法.pdf

2023-11-20

10金币

306KB

6页

一条****然后

实名认证

内容提供者

1/6

2/6

3/6

4/6

5/6

6/6

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106570537A(43)申请公布日2017.04.19(21)申请号201611031244.1(22)申请日2016.11.17(71)申请人天津大学地址300072天津市南开区卫津路92号(72)发明人侯春萍张倩楠王宝亮常鹏张荧允(74)专利代理机构天津市北洋有限责任专利代理事务所12201代理人程毓英(51)Int.Cl.G06K9/62(2006.01)权利要求书1页说明书4页(54)发明名称一种基于混淆矩阵的随机森林模型选择方法(57)摘要本发明公开一种基于混淆矩阵的随机森林模型选择方法，包括：a.以训练得到的决策树作为原始随机森林，各决策树在测试样本集上进行分类，得到各决策树分类结果的混淆矩阵，通过对随机森林中决策树的混淆矩阵两两作差，得到随机森林中任意两棵决策树的差值矩阵；将差值矩阵的F范数作为两棵决策树的相似性度量，建立随机森林的差异性度量矩阵；c.遍历差异性度量矩阵中不大于相似性阈值的元素；考察该元素所涉及的决策树的分类准确率大小：若低于分类准确率阈值则删除该决策树，将该决策树所在的矩阵行列上的所有元素置零，否则保留该决策树；完成随机森林的模型选择。CN106570537ACN106570537A权利要求书1/1页1.一种基于混淆矩阵的随机森林模型选择方法，包括下列步骤：a.以训练得到的决策树作为原始随机森林，各决策树在测试样本集上进行分类，得到各决策树分类结果的混淆矩阵，并根据各类别的样本数目对矩阵进行归一化；b.通过对随机森林中决策树的混淆矩阵两两作差，得到随机森林中任意两棵决策树的差值矩阵。将差值矩阵的F范数作为两棵决策树的相似性度量，以此为元素建立随机森林的差异性度量矩阵，矩阵元素为该元素所涉及的两棵决策树的相似性度量值；c.按照从小到大的顺序，遍历差异性度量矩阵中不大于相似性阈值的元素；考察该元素所涉及的决策树的分类准确率大小：若低于分类准确率阈值则删除该决策树，将该决策树所在的矩阵行列上的所有元素置零，否则保留该决策树；d.最终由差异性度量矩阵的非零元素所代表的决策树被集成进入新的随机森林，完成随机森林的模型选择。2CN106570537A说明书1/4页一种基于混淆矩阵的随机森林模型选择方法技术领域[0001]本发明涉及一种组合分类器。背景技术[0002]随机森林方面[0003]随机森林是基于组合学习思想的分类器，它使用若干决策树分类器构建产生随机森林，决策树分类器之间具有独立性，在一定的投票规则下各决策树对测试样本进行投票，通过表决产生最终结果。随机森林分类器继承了决策树分类器原理简明、易于施行的优点，同时克服了决策树分类器的过拟合缺点，并通过决策树之间的相互作用而拥有了组合分类器的附加优势，分类性能得到了提升。[0004]随机森林算法被提出后，很多科研人员对随机森林进行研究和改进。对随机森林的改进一般可以总结为两个方面，一是将随机森林与其他算法结合进行改进，二是对随机森林自身的组成原理和构建过程进行研究，比如对随机森林的特征选择和模型组合方法进行改进等。有的研究者将随机森林的投票过程与霍夫变换相结合，产生一种称为霍夫森林的分类器，在目标检测、动作识别等计算机视觉领域中有很好的应用。还有人将生存树的概念引入随机森林中，在训练样本抽取环节选用Bootstrap方法，之后对每一个训练子集建立一棵生成分析树，综合每棵树的生存函数进行总体投票结果的判断，所得到的这种分类算法称作随机生存森林算法，在高维数据分类中具有良好的效果。[0005]在针对随机森林算法自身构建过程进行的优化上，也取得了一定的效果。有的研究在形成决策树时，综合多个节点分裂算法组成线性函数，在同一棵决策树中不只使用一种分裂算法，而是结合不同的分裂算法进行分裂，在某些组合系数的情况下，可以提高随机森林的分类性能。[0006]在社会生产生活中，随机森林算法被用来在能源、交通运输、计算机视觉、基因工程等各个领域进行分类预测和回归预测。另外，随机森林算法可以估计样本属性的重要程度，因此也广泛地应用在数据降维和特征选择中。同时，由于随机森林在样本抽取和决策树生成过程中引入了随机性，其内在的独立性特点使其可以方便地进行并行化改造，从而应用在大数据处理环境中。[0007]混淆矩阵方面[0008]分类器集成是指在一定的组合策略下，将各个基分类器的判别结果进行整合，得到整体意义上较强的集成分类性能。一般认为，分类器的独立性、差异性及互补性是集成分类器取得良好性能的关键。其中，差异性的度量不像分类准确率的度量那么简单，通常分为基于结果的度量方法和基于结构的度量方法。[0009]混淆矩阵是一种分类结果的呈现方法，通过对样本类别及输出类别的统计，呈现出分类器的分类效果。在机器学习

相关资料

一种基于混淆矩阵的随机森林模型选择方法.pdf

本发明公开一种基于混淆矩阵的随机森林模型选择方法，包括：a.以训练得到的决策树作为原始随机森林，各决策树在测试样本集上进行分类，得到各决策树分类结果的混淆矩阵，通过对随机森林中决策树的混淆矩阵两两作差，得到随机森林中任意两棵决策树的差值矩阵；将差值矩阵的F范数作为两棵决策树的相似性度量，建立随机森林的差异性度量矩阵；c.遍历差异性度量矩阵中不大于相似性阈值的元素；考察该元素所涉及的决策树的分类准确率大小：若低于分类准确率阈值则删除该决策树，将该决策树所在的矩阵行列上的所有元素置零，否则保留该决策树；完成随

2023-11-20

306KB

一种基于随机森林和序列矩阵的蛋白互作预测方法.pdf

本发明提供了一种基于随机森林和序列矩阵的蛋白互作预测方法。通过获取蛋白质序列，根据序列矩阵蛋白质编码方法，编码蛋白质正相关数据集和蛋白质负相关数据集，获取第一输出序列矩阵；根据所述第一输出矩阵执行特征提取以生成第一特征向量；根据所述第一特征向量以及蛋白互作预测模型对所述蛋白质执行互作预测，并输出预测结果。通过将序列矩阵和随机森林相结合进行蛋白互作预测模型的构建，鉴于随机森林在处理噪声和过拟合方面的优点，以及序列矩阵编码方法编码效率高、编码简单、省时的优点，从而提高了蛋白质相互作用识别的准确率，增强了蛋白相

2023-06-28

634KB

一种基于PaddleDetection的混淆矩阵生成方法.pdf

本发明提供了一种基于PaddleDetection的混淆矩阵生成方法，包括：在PaddlePaddle平台下运用PaddleDetection目标检测开发套件训练目标检测网络；获取有标注的测试数据集，分为两个文件夹，一个文件夹放json文件，另一个放对应的图片文件，并得到真实的目标物体外接矩形框；运用infer.py图片文件进行预测，得到预测标签；得出预测修正得到的矩形检测框；将真实矩形框与预测修正得到的矩形检测框进行循环匹配，将统计得到的值记录在矩阵上；创建excle表格，将记录的矩阵填充到excle表

2023-07-24

454KB

一种基于随机森林模型的报表生成方法及相关设备.pdf

本申请实施例应用于人工智能领域，公开了一种基于随机森林模型的报表生成方法及相关设备，包括：接收携带第一字段集合的报表生成指令，将第一字段集合输入至目标随机森林模型中；在确定第一字段集合所包括的字段能生成报表的情况下，确定目标随机森林模型中包括第一字段集合的路径集合；接收指示路径集合中第一路径的选择指令；确定在第一路径包括的各个节点对应的字段为第二字段集合；并根据第二字段集合中各个字段以及获取到的各个字段对应的数据，生成第一报表。采用本申请实施例，可以在面对多种不同业务以及海量数据快速生成报表，提高了生成报

2023-07-24

855KB

一种基于随机森林的硫酸钾生产盐池地形预测模型方法.pdf

本发明涉及一种基于随机森林的硫酸钾生产盐池地形预测模型方法，基于随机森林的硫酸钾生产盐池地形预测模型方法，包括获取无人船采集的盐池地形点云数据，对采集的数据进行预处理，得到可以用于训练模型的数据；将的训练模型的数据制作成数据集，并基于随机森林回归分析的方法，得到数据集训练模型；将得到的数据集训练模型进行参数调优和验证，得到最终的盐池地形预测模型；将得到的盐池地形预测模型对待预测区域的点云数据进行预测，得到预测结果。有益效果：能代替无人船无法采集的点云数据，自动对无法采集的区域进行智能预测，得到更精确的盐池

2023-08-04

318KB