预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109871894A(43)申请公布日2019.06.11(21)申请号201910126440.4(22)申请日2019.02.20(71)申请人哈尔滨工程大学地址150001黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室(72)发明人徐东王鑫孟宇龙张子迎任龙关智允颜丙辉王敏(51)Int.Cl.G06K9/62(2006.01)G06N20/00(2019.01)权利要求书3页说明书7页附图2页(54)发明名称一种结合森林优化和粗糙集的数据离散化方法(57)摘要本发明属于机器学习数据处理领域,具体涉及一种结合森林优化和粗糙集的数据离散化方法。本发明的目的在于克服传统连续属性离散化算法割裂属性之间关联的缺点,使用森林优化算法对基于粗糙集的离散化方法进行改进,提出一种搜索效率高、避免局部最优的结合森林优化和粗糙集的数据离散化方法,并将该方法应用在机器学习的数据预处理过程,本发明最大程度保留了数据集不同属性间的关联性,增强机器学习模型的记忆能力,克服传统离散化方法易陷入局部最优、割裂属性之间关联以及优化效率低等问题,是一种多维属性离散化方法,并应用其建立数据预处理模型,可在机器学习算法中使用,如C4.5分类器,可提高其分类、预测精度。CN109871894ACN109871894A权利要求书1/3页1.一种结合森林优化和粗糙集的数据离散化方法,其特征在于,该方法包括以下步骤:步骤1:计算候选断点集;步骤1.1:对数据集进行数据清洗,包括处理数据不平衡问题、缺失值问题;步骤1.2:利用粗糙集理论,对清洗过的数据进行属性化简;步骤1.3:筛选出化简后属性中的连续属性,利用变精度粗糙集理论,对其进行初步的属性值候选断点集划分;步骤2:适宜度函数评价断点;步骤2.1:利用变精度粗糙集得到依赖度和断点数目两个指标,设计适宜度评价函数;步骤2.2:计算当前断点集的β得到依赖度;步骤2.3:计算森林初始候选断点集的适宜度评价函数;步骤3:森林优化迭代;步骤3.1:将候选断点集映射成森林中每棵树,进行森林优化编码;步骤3.2:初始化森林,预设参数;步骤3.3:森林就地传播,进行局部森林寻优步骤3.4:得到依赖度指导,更新森林每棵树的适宜度,对其进行评价,同时更新树的年龄参数;步骤3.5:形成、更新备选森林;步骤3.6:远处播种,进行全局森林寻优;步骤3.7:更新森林中每棵树的适宜度,并更新森林参数;步骤3.8:森林迭代次数G进行加1操作,若G≤Gmax,则执行步骤3.3;若反之,则执行步骤3.9;步骤3.9:计算森林中各树的适宜度,选取最大适宜度的树,即为最优树,将其反映射为最优断点集Eopt,最优断点集,即为本方法对连续属性离散化的最优结果。2.根据权利要求1所述的一种结合森林优化和粗糙集的数据离散化方法,其特征在于,步骤1.1所述的处理数据不平衡问题包括:首先分析正负样本比例,其次根据数据集的大小采用不同的采样方法处理,若数据量较充足,采取欠采样的方法,通过减少样本数据多的类的数量来平衡数据集;若数据量少,采取过采样的方法,通过增加数量少的类的数量来平衡数据集;步骤1.1所述的处理数据缺失值问题包括:采用K最近距离邻法,先根据欧式距离、相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据,加快后期模型的建立。3.根据权利要求1所述的一种结合森林优化和粗糙集的数据离散化方法,其特征在于,步骤1.3所述的变精度粗糙集中,一个信息系统表示为S=(U,A,V,f),其中,U是有限非空集合,称为论域;A是属性集合;Va表示属性a的值域;f:U×A→V是一个信息函数,即对a∈A,有f(x,a)∈Va;若属性集A被分为条件属性集B和决策属性集D,且满足A=B∪D,则称S=(U,A,V,f)为决策信息系统,即决策表;步骤1.3包括以下步骤:2CN109871894A权利要求书2/3页步骤1.3.1:对所有的连续条件属性,每个属性其值按照属性大小排序,依次计算每个属性断点集步骤1.3.2:计算全部连续属性的候选断点集Pcandidate。4.根据权利要求3所述的一种结合森林优化和粗糙集的数据离散化方法,其特征在于,步骤1.3.1所述每个属性断点集表示为下式:其中,步骤1.3.2所述全部连续属性的候选断点集Pcandidate表示为下式:其中,k最大取值为连续条件属性的个数。5.根据权利要求1所述的一种结合森林优化和粗糙集的数据离散化方法,其特征在于,步骤2.1所述当前断点集的β得到依赖度表示为下式:其中,F=U/D={D1,D2,…,Dk}是由决策属性集D导出的论域U的划分,是一个条件属性子集;β得到依赖度解释了条件属