预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115496157A(43)申请公布日2022.12.20(21)申请号202211199197.7(22)申请日2022.09.29(71)申请人中国农业银行股份有限公司地址100005北京市东城区建国门内大街69号(72)发明人文一帆(74)专利代理机构北京品源专利代理有限公司11332专利代理师岳晓萍(51)Int.Cl.G06K9/62(2022.01)G06Q40/02(2012.01)权利要求书2页说明书9页附图3页(54)发明名称分类模型训练方法、装置、电子设备及存储介质(57)摘要本发明公开了一种分类模型训练方法、装置、电子设备及存储介质。该方法包括:获取初始样本数据集,其中,所述初始样本数据集包括第一数据子集和第二数据子集,所述第一数据子集的样本数量大于所述第二数据子集的样本数量;基于第一权重在第一数据子集中进行数据抽样,以及基于第二权重在第二数据子集中进行数据抽样,得到训练数据集,其中,所述第一权重小于所述第二权重;基于所述训练数据集中的样本数据和所述样本数据对应的分类结果,对待训练的分类模型进行训练,得到目标分类模型。上述技术方案,提高了不平衡数据集下的分类效果。CN115496157ACN115496157A权利要求书1/2页1.一种分类模型训练方法,其特征在于,包括:获取初始样本数据集,其中,所述初始样本数据集包括第一数据子集和第二数据子集,所述第一数据子集的样本数量大于所述第二数据子集的样本数量;基于第一权重在第一数据子集中进行数据抽样,以及基于第二权重在第二数据子集中进行数据抽样,得到训练数据集,其中,所述第一权重小于所述第二权重;基于所述训练数据集中的样本数据和所述样本数据对应的分类结果,对待训练的分类模型进行训练,得到目标分类模型。2.根据权利要求1所述的方法,其特征在于,所述分类模型为随机森林模型;相应的,所述基于所述训练数据集中的样本数据和所述样本数据对应的分类结果,对待训练的分类模型进行训练,得到目标分类模型,包括:基于所述训练数据集中的样本数据和所述样本数据对应的分类结果,对待训练的随机森林模型进行训练,得到目标分类模型;其中,所述目标分类模型包括多个决策树。3.根据权利要求2所述的方法,其特征在于,所述样本数据包括属性信息和阈值信息;相应的,所述基于所述训练数据集中的样本数据和所述样本数据对应的分类结果,对待训练的随机森林模型进行训练,得到目标分类模型,包括:根据所述样本数据的属性信息和阈值信息,对所述随机森林模型中初始决策树进行分裂,直至满足分裂停止条件,得到多个决策树;根据多个所述决策树构建目标分类模型。4.根据权利要求3所述的方法,其特征在于,所述分裂停止条件包括:所述训练数据集的数量为一条;或者,决策树节点规模值小于等于节点规模阈值;或者,决策树节点深度值大于等于节点深度阈值。5.根据权利要求1所述的方法,其特征在于,所述第一数据子集为银行普通用户信用信息,所述第二数据子集为银行优质用户信用信息。6.根据权利要求1所述的方法,其特征在于,在所述得到目标分类模型之后,还包括:获取待分类数据;将所述待分类数据输入至所述目标分类模型,得到目标分类结果。7.根据权利要求6所述的方法,其特征在于,所述将所述待分类数据输入至所述目标分类模型,得到目标分类结果,包括:将所述待分类数据分别输入至各决策树,得到各所述决策树对应的分类结果;基于各所述决策树的投票权重和各所述决策树对应的分类结果确定目标分类结果。8.一种分类模型训练装置,其特征在于,包括:初始样本数据集获取模块,用于获取初始样本数据集,其中,所述初始样本数据集包括第一数据子集和第二数据子集,所述第一数据子集的样本数量大于所述第二数据子集的样本数量;数据抽样模块,用于基于第一权重在第一数据子集中进行数据抽样,以及基于第二权重在第二数据子集中进行数据抽样,得到训练数据集,其中,所述第一权重小于所述第二权重;2CN115496157A权利要求书2/2页分类模型训练模块,用于基于所述训练数据集中的样本数据和所述样本数据对应的分类结果,对待训练的分类模型进行训练,得到目标分类模型。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑7中任一项所述的分类模型训练方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1‑7中任一项所述的分类模型训练方法。3CN115496157A说明书1/9页分类模型训练方法、