预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115543776A(43)申请公布日2022.12.30(21)申请号202210990440.0(22)申请日2022.08.18(71)申请人湖州师范学院地址313000浙江省湖州市吴兴区二环东路759号(72)发明人楼俊钢牛辰煜申情陈林沈张果卢剑权(74)专利代理机构杭州中利知识产权代理事务所(普通合伙)33301专利代理师韩洪(51)Int.Cl.G06F11/36(2006.01)G06K9/62(2022.01)G06N5/00(2006.01)权利要求书2页说明书10页附图2页(54)发明名称一种面向软件缺陷预测的新型过采样方法(57)摘要本发明提出了一种面向软件缺陷预测的新型过采样方法,包括以下步骤:S1.聚类:采用迭代分区过滤器IPF对原始数据集进行粗过滤,然后使用K‑means聚类算法对粗过滤后的数据集进行聚类处理,并根据设定的阈值筛选出少数类样本稀疏分布的簇,用于合成新样本;S2.过采样:使用SMOTE合成少数过采样技术作为合成新的少数类样本的过采样算法,在由步骤S1筛选出的簇内进行过采样来生成新的少数类样本;S3.噪声过滤:采用迭代分区过滤器IPF作为处理噪声的过滤器,清除步骤S2所得数据集中残留的噪声样本。该新型过采样方法能够减少新的噪声样本的产生,缓解不同类间的重叠现象,使得样本数量以及分布更加平衡,决策边界更加清晰。CN115543776ACN115543776A权利要求书1/2页1.一种面向软件缺陷预测的新型过采样方法,其特征在于:包括以下步骤:S1.聚类:采用迭代分区过滤器IPF对原始数据集进行粗过滤,然后使用K‑means聚类算法对粗过滤后的数据集进行聚类处理,并根据设定的阈值筛选出少数类样本稀疏分布的簇,用于合成新样本;S2.过采样:使用SMOTE合成少数过采样技术作为合成新的少数类样本的过采样算法,在由步骤S1筛选出的簇内进行过采样来生成新的少数类样本;S3.噪声过滤:采用迭代分区过滤器IPF作为处理噪声的过滤器,清除步骤S2所得数据集中残留的噪声样本。2.如权利要求1所述的一种面向软件缺陷预测的新型过采样方法,其特征在于:步骤S1中,使用K‑means聚类算法处理的具体步骤如下:S1.1使用K均值聚类形成多个簇;S1.2对于每个簇,使用如下公式(1)计算簇内不平衡率IR:其中,majoritycounts(c)是多数类样本的数量,minoritycounts(c)是少数类样本的数量;将每个聚类的不平衡率与设定阈值irt进行比较;若IR小于irt,则将该簇视为过滤器簇,否则不视为过滤器簇;S1.3对于每个过滤后的簇,根据少数类的密度确定其采样权重。3.如权利要求2所述的一种面向软件缺陷预测的新型过采样方法,其特征在于:步骤S1.3中,采样权重的确定采用以下步骤实现:a.对于每个过滤后的聚类f,计算所有少数类样本间的距离矩阵;b.通过将距离矩阵中的所有非对角线元素相加,然后除以非对角线元素的数量,计算每个簇内的平均距离;c.使用如下公式(2)计算,即可求得密度因子density(f):其中majoritycounts(f)是簇f中多数类样本的数量,averageminoritydistance(f)为簇f的簇间平均距离,d代表幂次;d.使用如下公式(3)计算稀疏因子sparsity(f):其中density(f)为簇f的密度因子;e.每个簇的采样权重定义为该簇的稀疏因子除以所有簇的稀疏因子之和。4.如权利要求1所述的一种面向软件缺陷预测的新型过采样方法,其特征在于:步骤S2中,对于每个要生成的新的少数类样本,SMOTE在簇中选择一个随机少数类样本,选择其随机相邻少数类样本,并通过在两者中进行随机插值来确定一个新样本。5.如权利要求1所述的一种面向软件缺陷预测的新型过采样方法,其特征在于:步骤S2的具体步骤如下:S2.1依据欧几里得距离,为每一个少数类样本xi确定其K个少数类近邻;2CN115543776A权利要求书2/2页S2.2随机选择其中M个近邻,执行如下公式(4)进行线性插值合成新的样本;xnew=xi+rand(0,1)×(xm‑xi)(4)其中,rand(0,1)为介于0和1之间的随机数,xm表示第m个近邻(m=1,2,…,M);S2.3将生成的新样本添加到原始数据集中以实现样本的均衡分布。6.如权利要求1所述的一种面向软件缺陷预测的新型过采样方法,其特征在于:步骤S1、步骤S3中,IPF通过多次迭代来清理数据样本,其迭代步骤为:S3.1将当前训练集分割为n个大小相等的子集;S3.2n个子集分别投入n个决策树进行分类;决策树对子集中的每个数据样本进行分类,若最终得到错误的分类结果,表示数据样本可能是噪声;S3.3如