预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113792952A(43)申请公布日2021.12.14(21)申请号202110200440.1(22)申请日2021.02.23(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人陈伯梁(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G06Q10/06(2012.01)G06Q30/02(2012.01)权利要求书2页说明书12页附图6页(54)发明名称用于生成模型的方法和装置(57)摘要本公开的实施例公开了用于生成模型的方法、装置、设备和存储介质。该方法的一具体实施方式包括:获取原始的特征集;计算特征集中每个特征的评估指标,并将特征按评估指标由大到小的顺序排序,得到特征序列;从特征序列中确定出评估指标的突变点作为评估指标阈值;从特征序列中筛选出评估指标大于评估指标阈值的特征作为用于模型训练的特征;根据所述用于模型训练的特征获取训练样本集;使用所述训练样本集进行模型训练,得到训练完成的模型。该实施方式能够提高特征筛选的准确性和效率,从而训练出准确率高的模型。CN113792952ACN113792952A权利要求书1/2页1.一种用于生成模型的方法,包括:获取原始的特征集;计算所述特征集中每个特征的评估指标,并将特征按评估指标由大到小的顺序排序,得到特征序列;从所述特征序列中确定出评估指标的突变点作为评估指标阈值;从所述特征序列中筛选出评估指标大于所述评估指标阈值的特征作为用于模型训练的特征;根据所述用于模型训练的特征获取训练样本集;使用所述训练样本集进行模型训练,得到训练完成的模型。2.根据权利要求1所述的方法,其中,所述从所述特征序列中确定出评估指标的突变点作为评估指标阈值,包括:将排序后每个特征的下标索引作为横坐标,将每个特征的评估指标作为纵坐标确定出每个特征在坐标系中的位置,计算每个特征与前一个特征之间的斜率作为每个特征对应的斜率;以排序后每个特征的下标索引作为自变量,对应的斜率作为因变量,进行多项式函数拟合,得到所有特征斜率的拟合曲线;分析出所述拟合曲线的斜率突变点,并将所述斜率突变点对应的评估指标作为评估指标阈值。3.根据权利要求1所述的方法,其中,所述从所述特征序列中确定出评估指标的突变点作为评估指标阈值,包括:将排序后每个特征的下标索引作为横坐标,将每个特征的评估指标作为纵坐标确定出每个特征在坐标系中的位置,计算每个特征与其它特征之间的斜率;从所述特征序列中找到一个目标特征,使得通过所述目标特征将所述特征序列划分成第一区间和第二区间,所述第一区间中各特征之间的平均斜率与所述第二区间中各特征之间的平均斜率之比最大;将所述目标特征对应的评估指标确定为评估指标阈值。4.根据权利要求1所述的方法,其中,所述方法还包括:根据评估指标对每个特征进行显著性检验。5.根据权利要求1所述的方法,其中,所述方法还包括:对训练完成的模型进行性能评估,得到评估结果;如果所述评估结果达不到目标期望,则重新确定评估指标阈值。6.根据权利要求1所述的方法,其中,所述模型为性别预测模型,模型的输入为用户的特征,输出为用户的性别。7.根据权利要求1‑6中任一项所述的方法,其中,所述评估指标包括卡方值或信息熵。8.一种用于生成模型的装置,包括:获取单元,被配置成获取原始的特征集;计算单元,被配置成计算所述特征集中每个特征的评估指标,并将特征按评估指标由大到小的顺序排序,得到特征序列;确定单元,被配置成从所述特征序列中确定出评估指标的突变点作为评估指标阈值;2CN113792952A权利要求书2/2页筛选单元,被配置成从所述特征序列中筛选出评估指标大于所述评估指标阈值的特征作为用于模型训练的特征;训练单元,被配置成根据所述用于模型训练的特征获取训练样本集,使用训练样本集进行模型训练,得到训练完成的模型。9.一种用于生成模型的电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1‑7中任一项所述的方法。10.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1‑7中任一项所述的方法。3CN113792952A说明书1/12页用于生成模型的方法和装置技术领域[0001]本公开的实施例涉及计算机技术领域,具体涉及用于生成模型的方法和装置。背景技术[0002]现有的模型训练过程中,特征量巨大,给模型训练造成困难。比较典型的情况,例如在电商用户性别标签预测场景中,模型特征