预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113743436A(43)申请公布日2021.12.03(21)申请号202010604427.8(22)申请日2020.06.29(71)申请人北京沃东天骏信息技术有限公司地址100176北京市北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人陈伯梁(74)专利代理机构中原信达知识产权代理有限责任公司11219代理人张一军李阳(51)Int.Cl.G06K9/62(2006.01)G06F16/9535(2019.01)G06N3/08(2006.01)权利要求书2页说明书10页附图3页(54)发明名称一种用于生成用户画像的特征选取方法和装置(57)摘要本发明公开了用于生成用户画像的特征选取方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括接收待处理特征数据,生成候选特征集合;基于预设的评价模型计算候选特征集合中每个特征的评价值,将所述评价值大于第一阈值的特征记入第一候选特征集;进而基于预设的相关系数模型计算第一候选特征集中每两个特征间的相关系数,将所述相关系数大于第二阈值的特征记入第二候选特征集;将第一阈值、第二阈值、第一候选特征集以及第二候选特征集代入预先训练好的策略网络中,得到策略筛选的特征集以用于生成用户画像。从而,本发明的实施方式能够解决现有用户画像特征选择方法不能满足当前超大规模的数据背景,且精度低、效率差的问题。CN113743436ACN113743436A权利要求书1/2页1.一种用于生成用户画像的特征选取方法,其特征在于,包括:接收待处理特征数据,生成候选特征集合;基于预设的评价模型计算候选特征集合中每个特征的评价值,将所述评价值大于第一阈值的特征记入第一候选特征集;进而基于预设的相关系数模型计算第一候选特征集中每两个特征间的相关系数,将所述相关系数大于第二阈值的特征记入第二候选特征集;将第一阈值、第二阈值、第一候选特征集以及第二候选特征集代入预先训练好的策略网络中,得到策略筛选的特征集以用于生成用户画像。2.根据权利要求1所述的方法,其特征在于,将第一阈值、第二阈值、第一候选特征集以及第二候选特征集代入预先训练好的策略网络中之前,包括:获取历史特征数据及其标签,且通过历史特征数据生成候选特征集合;在每轮迭代训练策略网络时,基于预设的评价模型计算候选特征集合中每个特征的评价值,将所述评价值大于第一阈值的特征记入第一候选特征集;进而基于预设的相关系数模型计算第一候选特征集中每两个特征间的相关系数,将所述相关系数大于第二阈值的特征记入第二候选特征集;从第一候选特征集中随机选取一个特征且删除第一候选特征集中的该特征;将该特征、第一阈值、第二阈值、第一候选特征集和第二候选特征代入策略网络中,得到该轮迭代策略筛选的特征集,以根据该轮迭代策略筛选的特征集中的特征数量调整第一阈值和第二阈值;并且将该轮迭代策略筛选的特征集输入至分类器中,根据分类结果和对应标签计算损失函数。3.根据权利要求2所述的方法,其特征在于,根据分类结果和对应标签计算损失函数,包括:模型训练的损失函数采用交叉熵,再将得到的交叉熵利用BP反向传播到策略网络中。4.根据权利要求2所述的方法,其特征在于,根据该轮迭代策略筛选的特征集中的特征数量调整第一阈值和第二阈值,包括:判断该轮迭代策略筛选的特征集中的特征数量是否大于预设数量阈值,若是则减小第一阈值和第二阈值,否则增大第一阈值和第二阈值。5.根据权利要求2所述的方法,其特征在于,还包括:所述策略网络采用随机策略选择动作。6.根据权利要求5所述的方法,其特征在于,得到该轮迭代策略筛选的特征集之后,包括:获取所述策略网络返回的动作指令,若该动作指令为增加动作指令,则继续从第一候选特征集中随机选取一个特征并入至备选特征集中,且删除第一候选特征集中的该特征执行迭代训练策略网络;若该动作指令为删除动作指令,则基于预设的相关系数模型获取备选特征集中特征间相关系数大于预设系数阈值的特征对,随机选择特征对中的一个特征并入第一候选特征集中,且删除备选特征集中的该特征继续执行迭代训练策略网络。7.根据权利要求1-6任一所述的方法,其特征在于,包括:通过信息增益率、基尼指数和方差的一种或多种生成评价模型,其中评价模型的初始化第一阈值为每个特征基于该评价模型得到的评价值的平均值;通过pearson相关系数、spearman系数、互信息和距离相关系数的一种或多种生成相关2CN113743436A权利要求书2/2页系数模型,其中相关系数模型的初始化第二阈值为每两个特征间基于该相关系数模型得到的相关系数的平均值。8.一种用于生成用户画像的特征选取装置,其特征在于,包括:接收模块,用于接收待处理特