预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114154584A(43)申请公布日2022.03.08(21)申请号202111489650.3(22)申请日2021.12.08(71)申请人北京邮电大学地址100876北京市海淀区西土城路10号(72)发明人罗娟娟蒋玲玲(74)专利代理机构北京柏杉松知识产权代理事务所(普通合伙)11413代理人马敬赵元(51)Int.Cl.G06K9/62(2022.01)G06N3/00(2006.01)G06N20/00(2019.01)权利要求书3页说明书14页附图2页(54)发明名称一种特征选择方法、装置、电子设备和存储介质(57)摘要本发明实施例提供了一种特征选择方法、装置、电子设备和存储介质,上述方法包括:获取训练样本集,计算多个样本的同一维度特征所构成的特征集合中的每一维度的特征对应的条件熵,并基于条件熵计算该维度的特征对应的被选择概率;基于各维度的特征对应的被选择概率,初始化预设数量个粒子,针对每个粒子中的每个元素,若该元素的值大于预设特征阈值,确定该粒子中的该元素对应的特征被选择,得到该粒子对应的一组被选择的特征子集;基于各个粒子对应的被选择的特征子集确定目标函数的值,如果目标函数收敛,确定每个样本被选择的特征,作为目标特征;如果目标函数未收敛,自适应更新各个粒子。采用该方法,提高了机器学习算法的收敛速度。CN114154584ACN114154584A权利要求书1/3页1.一种特征选择方法,其特征在于,包括:获取训练样本集,其中,所述训练样本集包括多个样本,每个所述样本包括D维特征;针对多个样本的同一维度特征所构成的特征集合中的每一维度的特征,计算该维度的特征对应的条件熵,并基于所述条件熵计算该维度的特征对应的被选择概率;基于各维度的特征对应的被选择概率,通过粒子群优化算法初始化预设数量个粒子,其中,每个所述粒子对应一个决策变量,决策变量包括D个元素,每个元素与一个维度的特征相对应;针对每个粒子中的每个元素,若该元素的值大于预设特征阈值,确定该粒子中的该元素对应的特征被选择,得到该粒子对应的一组被选择的特征子集;基于各个粒子对应的被选择的特征子集确定目标函数的值,所述目标函数的值用于表征每个样本的特征选择比例和特征分类错误率;基于所述目标函数的值确定所述目标函数是否收敛;如果所述目标函数收敛,确定每个样本被选择的特征,作为目标特征;如果所述目标函数未收敛,更新各个粒子,并返回所述针对每个粒子中的每个元素,若该元素的值大于预设特征阈值,确定该粒子中的该元素对应的特征被选择的步骤。2.根据权利要求1所述的方法,其特征在于,所述计算该维度的特征对应的条件熵,包括:采用如下公式计算该维度的特征对应的条件熵:其中,L为训练样本集中包括的样本所属类别集合,Fm为训练样本集中的多个样本的第m维特征所构成的特征集合,H(L|Fm)为该维度的特征Fm对应的条件熵,表示Fm的子事件,为Fm通过聚类算法所得的第t类聚类结果,l为L的子事件,为联合概率,表示训练样本集中的样本同时属于子事件和l类的概率,为条件概率,表示在子事件条件下样本属于l类的概率。3.根据权利要求1所述的方法,其特征在于,所述基于所述条件熵计算该维度的特征对应的被选择概率,包括:采用如下公式基于所述条件熵计算该维度的特征对应的被选择概率:其中,P(L|Fm)为该维度的特征Fm对应的被选择概率,L为训练样本集中包括的样本所属类别集合,Fm为训练样本集中的多个样本的第m维特征所构成的特征集合,H(L|Fm)为该维度的特征对应的条件熵,D为样本包括的特征维数。4.根据权利要求1所述的方法,其特征在于,所述基于各维度的特征对应的被选择概率,通过粒子群优化算法初始化预设数量个粒子,包括:设置预设数量个包含D个元素的决策变量对应的粒子;针对每个粒子中的每个元素,生成均匀随机数,若所述均匀随机数小于该元素对应的2CN114154584A权利要求书2/3页特征的被选择概率,为该粒子的该元素赋予大于预设特征阈值且小于等于1的值,否则,为该粒子的该元素赋予大于零且小于预设特征阈值的值;得到预设数量个初始化后的粒子。5.根据权利要求1所述的方法,其特征在于,采用如下公式表示所述目标函数:其中,X={x1,x2,...,xj,...,xD}为决策变量,为决策变量X所选择的特征比例,xj为决策变量X的第j个元素,threshold为预设特征阈值,D为样本包括的特征的维数,N为训练样本集中的样本数量,表示采用决策变量X所选特征集合进行分类的分类错误率,ak表示训练样本集中的第k个样本,ak(X)表示采用决策变量X所选特征的样本ak,lk为ak的真实类别标识,f(ak(X))表示样本ak(X)经过分类后所得类标,若样本a