预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106339409A(43)申请公布日2017.01.18(21)申请号201610653562.5(22)申请日2016.08.10(71)申请人乐视控股(北京)有限公司地址100025北京市朝阳区姚家园路105号3号楼10层1102申请人乐视网信息技术(北京)股份有限公司(72)发明人周二亮(74)专利代理机构北京鼎佳达知识产权代理事务所(普通合伙)11348代理人王伟锋刘铁生(51)Int.Cl.G06F17/30(2006.01)权利要求书2页说明书9页附图3页(54)发明名称用户语料信息的获取方法及装置(57)摘要本发明实施例提供一种用户语料信息的获取方法及装置,涉及数据挖掘技术领域,主要目的是提高获取语料的质量。本发明实施例所采用的技术方案是:根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值,所述多媒体对应的用户行为的属性分布信息用于表示所述多媒体对应的用户行为在所述不同的属性类别上的分布信息;根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度;根据所述置信度从所述候选用户中选择目标用户,将所述目标用户的用户语料信息作为样本用户的用户语料信息。本发明主要用于用户语料信息的获取。CN106339409ACN106339409A权利要求书1/2页1.一种用户语料信息的获取方法,其特征在于,包括:根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值,所述多媒体对应的用户行为的属性分布信息用于表示所述多媒体对应的用户行为在所述不同的属性类别上的分布信息;根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度;根据所述置信度从所述候选用户中选择目标用户,将所述目标用户的用户语料信息作为样本用户的用户语料信息。2.根据权利要求1所述的方法,其特征在于,所述根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值包括:将所述候选用户观看的多媒体的次数分别与所述候选用户观看的多媒体对应的用户行为在不同的属性类别上的分布信息相乘,得到所述候选用户的偏好值。3.根据权利要求1所述的方法,其特征在于,所述根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度包括:将所述候选用户观看所有多媒体行为在所有属性类别上的偏好值进行加总,得到偏好总值;分别将所述候选用户在不同的属性类别上的偏好值进行加总,得到每个属性类别的总偏好值;将所述每个属性类别的总偏好值除以所述总偏好值,得到每个属性类别的置信度;所述根据所述置信度从所述候选用户中选择目标用户具体为:选取所述置信度大于或等于预设阈值的候选用户作为目标用户。4.根据权利要求1所述的方法,其特征在于,所述评估所述候选用户在不同的属性类别上的偏好值之前还包括:获取多媒体对应的用户行为的属性分布信息。5.根据权利要求4所述的方法,其特征在于,所述获取多媒体对应的用户行为的属性分布信息包括:结合网络多媒体的指数平台获取所述多媒体的用户行为的指数信息;将所述指数信息对应的属性特征进行分类,得到所述属性分布信息。6.一种用户语料信息的获取装置,其特征在于,包括:评估单元,用于根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值,所述多媒体对应的用户行为的属性分布信息用于表示所述多媒体对应的用户行为在所述不同的属性类别上的分布信息;第一获取单元,用于根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度;选择单元,用于根据所述置信度从所述候选用户中选择目标用户,将所述目标用户的用户语料信息作为样本用户的用户语料信息。7.根据权利要求6所述的装置,其特征在于,所述评估单元还用于将所述候选用户观看的多媒体的次数分别与所述候选用户观看的多媒体对应的用户行为在不同的属性类别上的分布信息相乘,得到所述候选用户的偏好值。8.根据权利要求6所述的装置,其特征在于,所述第一获取单元包括;2CN106339409A权利要求书2/2页第一加总模块,用于将所述候选用户观看所有多媒体行为在所有属性类别上的偏好值进行加总,得到偏好总值;第二加总模块,用于分别将所述候选用户在不同的属性类别上的偏好值进行加总,得到每个属性类别的总偏好值;计算模块,用于将所述每个属性类别的总偏好值除以所述总偏好值,得到每个属性类别的置信度;所述选择单元,还用于选取所述置信度大于或等于预设阈值的候选用户作为目标用户。9.根据权利要求6所述的装置,其特征在于,所述装置还包括:第二获取单元