预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112488180A(43)申请公布日2021.03.12(21)申请号202011356846.0(22)申请日2020.11.27(71)申请人哈尔滨工程大学地址150001黑龙江省哈尔滨市南岗区南通大街145号(72)发明人王红滨刘宜陶何鸣王勇王念滨周连科崔琎(74)专利代理机构哈尔滨市松花江专利商标事务所23109代理人刘强(51)Int.Cl.G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书7页附图3页(54)发明名称基于RealifF的特征选择方法(57)摘要基于RealifF的特征选择方法,涉及数据挖掘技术领域,针对传统的去冗余方法是将一组冗余特征保留一个,这样会造成损失信息的问题,本申请通过距离相关性系数找出冗余特征,解决冗余问题。传统的简单去冗余方法是将一组冗余特征保留一个,本申请通过自编码器融合这些冗余特征而不是直接丢掉,解决了损失信息的问题。自编码器是一种黑盒的结构,无法保证最后可以得到想要的特征,本申请通过多任务的方式,加上一路分类的任务,可以迫使自编码器学到这一组冗余信息中更利于分类的特征,提升自编码器学习到特征的质量。CN112488180ACN112488180A权利要求书1/2页1.基于RealifF的特征选择方法,其特征在于包括以下步骤:步骤一:获取原始特征集;步骤二:将原始特征集中方差小于方差阈值的特征删除,得到特征集M;步骤三:根据特征集M构建距离相关性矩阵;步骤四:将距离相关性矩阵中小于距离相关性矩阵阈值的特征进行融合,并将融合后的特征与距离相关性矩阵中不小于距离相关性矩阵阈值的特征组成特征集N;步骤五:将特征集N中每个特征所对应的权重重置为0,即W(i)=0,i=0,1,2,...n;步骤六:在特征集N中随机选择一个样本O,然后找出与样本O同类的K个近邻Qj,j=1,2,...,k,再找出与样本O不同类的K个近邻Vj(c),c=1,2,...C,j=1,2,...k,其中C为类别数;步骤七:利用Qj和Vj(c)对特征重置后的特征集N中特征的权重进行迭代更新,得到更新后的特征权重W(i),更新公式为:其中,d(i,O,Qj)代表O和Qj关于特征i的距离,P(c)表示第c类目标的概率,l为迭代次数,5<l<10;步骤八:当特征重置后的特征集N中特征的权重全部更新后,将更新后的权重按降序排列;步骤九:选取排列前70%的权重所对应的特征构成特征子集。2.根据权利要求1所述的基于RealifF的特征选择方法,其特征在于所述方差表示为:其中,Hlnlm是lm样本第ln个特征值,并且lm=1,2,3...Lm,Ln表示特征集的样本数,Lm表示一个样本中的特征数。3.根据权利要求1所述的基于RealifF的特征选择方法,其特征在于所述步骤四中将距离相关性矩阵中小于阈值的特征进行融合通过欠完备自编码器完成。4.根据权利要求1所述的基于RealifF的特征选择方法,其特征在于所述步骤四中将距离相关性矩阵中小于阈值的特征进行融合通过基于多任务的自编码器完成,所述基于多任务的自编码器包括主任务及辅助任务,所述主任务对距离相关性矩阵中小于阈值的特征进行编码,得到隐层特征,然后对隐层特征进行解码后输出,得到主任务损失,所述辅助任务对隐层特征进行分类,然后将分类结果输出,得到辅助任务损失,然后将主任务损失和辅助任务损失相加后并结合反向传播算法对基于多任务的自编码器进行调整得到最优自编码器,最后将距离相关性矩阵中小于阈值的特征输入最优自编2CN112488180A权利要求书2/2页码器得到融合特征。5.根据权利要求4所述的基于RealifF的特征选择方法,其特征在于所述主任务通过稀疏自编码器完成。6.根据权利要求5所述的基于RealifF的特征选择方法,其特征在于所述稀疏自编码器中KL散度的惩罚项表示为:其中,ρ表示期望的平均激活值,示第i个神经元节点的平均激活程度,j表示第j个神经元,p表示神经元总数。7.根据权利要求1所述的基于RealifF的特征选择方法,其特征在于所述距离相关性矩阵表示为:8.根据权利要求4所述的基于RealifF的特征选择方法,其特征在于所述辅助任务利用残差网络完成。9.根据权利要求4所述的基于RealifF的特征选择方法,其特征在于所述主任务损失和辅助任务损失相加表示为:loss=loss1+loss2。3CN112488180A说明书1/7页基于RealifF的特征选择方法技术领域[0001]本发明涉及数据挖掘技术领域,具体为一种基于RealifF的特征选择方法。背景技术[0002]Relief为一系列算法,最早由kira提出,后来扩展出