预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113822112A(43)申请公布日2021.12.21(21)申请号202110075656.X(22)申请日2021.01.20(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人吴远安(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G06K9/00(2006.01)G06K9/62(2006.01)G06F16/58(2019.01)权利要求书4页说明书16页附图4页(54)发明名称用于确定标签权重的方法和装置(57)摘要本申请公开了用于确定标签权重的方法和装置,涉及计算机技术领域。该方法包括:获取目标人群的画像数据集,画像数据集中包括目标人群的至少一个原始标签、构成目标人群的样本用户;根据样本用户中符合原始标签的用户数量、以及样本用户的总数量,确定原始标签的权重。采用本方法可以确定目标人群的画像标签的重要性。CN113822112ACN113822112A权利要求书1/4页1.一种用于确定标签权重的方法,包括:获取目标人群的画像数据集,所述画像数据集中包括所述目标人群的至少一个原始标签、构成所述目标人群的样本用户;根据所述样本用户中符合所述原始标签的用户数量、以及所述样本用户的总数量,确定所述原始标签的权重。2.根据权利要求1所述的方法,其中,所述根据所述样本用户中符合所述原始标签的用户数量、以及所述样本用户的总数量,确定所述原始标签的权重,包括:将所述画像数据集中的每一个原始标签标记为第一标记,并通过多轮迭代操作确定所述原始标签的权重;所述迭代操作包括:随机获取所述画像数据集中、具有所述第一标记的原始标签,并构建副本画像数据集,所述副本画像数据集中包括副本标签;采用所述样本用户中符合所述原始标签的用户的数量、以及所述样本用户中不符合所述原始标签的用户的数量,确定所述原始标签的第一权重;采用所述样本用户中符合所述副本标签的用户数量、以及所述样本用户中不符合所述副本标签的用户的数量,确定所述副本标签的第二权重,并将各个所述副本标签的第二权重中、最大的第二权重确定为基准权重;响应于确定所述第一权重小于所述基准权重,在执行下一次迭代操作前,将与所述第一权重对应的原始标签的标记更新为第二标记;响应于确定所述迭代操作满足停止条件,停止所述迭代操作,并基于所述第一权重大于或等于多轮迭代操作中确定的各个基准权重的概率确定与所述第一权重对应的原始标签的权重。3.根据权利要求2所述的方法,其中,在每一轮所述迭代操作中,所述确定所述原始标签的第一权重,包括:采用多个目标模型中的每一个模型,确定该模型输出所述原始标签的第一权重;所述确定所述副本标签的第二权重,包括:确定该模型输出的所述副本标签的第二权重;响应于确定所述第一权重大于或者等于所述基准权重,确定该模型的输出结果为第一结果;所述响应于确定所述第一权重小于所述基准权重,在执行下一次迭代操作前,将与所述第一权重对应的原始标签的标记更新为第二标记,包括:响应于确定所述多个目标模型输出为所述第一结果、占全部输出结果的概率不满足第一预设条件,在执行下一次迭代操作前,将与所述第一权重对应的原始标签标的标记更新为所述第二标记。4.根据权利要求3所述的方法,其中,所述不满足第一预设条件,包括:所述多个目标模型输出为所述第一结果、占全部输出结果的输出概率的概率分布函数不满足第二预设条件。5.根据权利要求4所述的方法,其中,所述在执行下一次迭代操作前,将与所述第一权重对应的原始标签标的标记更新为所述第二标记,包括:获取在当前迭代操作以及所述当前迭代操作之前的迭代操作中、确定的所述输出概率2CN113822112A权利要求书2/4页的概率分布函数;采用获取到的多个概率分布函数进行错误发现率校正;响应于确定校正后的所述多个概率分布函数不满足第三预设条件,在执行下一次迭代操作前,将所述原始标签标的标记更新为所述第二标记。6.根据权利要求4所述的方法,其中,所述方法还包括:在所述迭代操作结束后,基于最后一轮迭代操作中确定的所述多个目标模型输出为所述第一结果、占全部输出结果的输出概率的概率分布函数,确定与所述第一权重对应的原始标签的权重指数。7.根据权利要求3‑6之一所述的方法,其中,所述采用多个目标模型中的每一个模型,该模型输出所述原始标签的第一权重,包括:采用随机森林模型中的每一个决策树,基于所述原始标签所表征的该决策树中的节点被确定为分裂点的次数,确定所述第一权重,其中,所述分裂点用于将所述样本用户划分为不同的子集;以及所述确定该模型输出的所述副本标签的第二