预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106875278A(43)申请公布日2017.06.20(21)申请号201710038836.4(22)申请日2017.01.19(71)申请人浙江工商大学地址310018浙江省杭州市下沙高教园区浙江工商大学信息楼518(72)发明人琚春华胡坤鲍福光(74)专利代理机构杭州知通专利代理事务所(普通合伙)33221代理人姚宇吉(51)Int.Cl.G06Q50/00(2012.01)权利要求书1页说明书3页附图1页(54)发明名称基于随机森林的社交网络用户画像方法(57)摘要本发明提供了一种基于随机森林的社交网络用户画像方法,具体包括如下步骤:获取在线社交网站的多源属性数据;将原始多源属性的数据属性集合进行原始属性标号,调用相似度函数对不同属性的数据属性集合遍历相似检测;根据原始单层多源属性的决策树,将相似度满足阈值范围的数据属性集合合并生成合并属性标签后,采用随机森林算法训练样本;获取投票众数,将获得的投票众数赋予权重,再按照权重的由大到小排序,获取全部的标签权重值;保留预设阈值内的标签,形成新的标签属性集用于用户社交网络中属性的画像。本发明目的在于采用随机森林模型,用于用户的属性标签划分,有效改进了传统的基于小样本抽样划分属性的不足和复杂度的问题。CN106875278ACN106875278A权利要求书1/1页1.一种基于随机森林的社交网络用户画像方法,其特征在于,具体包括如下步骤:获取在线社交网站的多源属性数据;将原始多源属性的数据属性集合进行原始属性标号,调用相似度函数对不同属性的数据属性集合遍历相似检测;根据原始单层多源属性的决策树,将相似度满足阈值范围的数据属性集合合并生成合并属性标签后,采用随机森林算法训练样本;获取投票众数,将获得的投票众数赋予权重,再按照权重的由大到小排序,获取全部的标签权重值;保留预设阈值内的标签,形成新的标签属性集用于用户社交网络中属性的画像。2.根据权利要求1所述的基于随机森林的社交网络用户画像方法,其特征在于,还包括以下步骤:设定最低检测终止阈值,当相似度小于最低检测终止阈值时,终止该集合的相似度检测。3.根据权利要求2所述的基于随机森林的社交网络用户画像方法,其特征在于,所述最低检测终止阈值为0.15。4.根据权利要求1所述的基于随机森林的社交网络用户画像方法,其特征在于,所述相似度函数为:其中,α为相似度调节参数,α∈0,1,ω(x)代表标签相似度较高的两种属性函数。5.根据权利要求4所述的基于随机森林的社交网络用户画像方法,其特征在于,所述α取值为0.001。6.根据权利要求1所述的基于随机森林的社交网络用户画像方法,其特征在于,所述保留预设阈值内的标签,形成新的标签属性集用于用户社交网络中属性的画像步骤,具体包括以下步骤:设定标签众数阈值,当随机森林算法获取的投票众数小于标签众数时,则认为该标签不具代表性,舍弃该标签;将保留后的标签根据标签权重值由大到小排序,形成新的标签属性集。7.根据权利要求1所述的基于随机森林的社交网络用户画像方法,其特征在于,所述相似度阈值范围为[0.9,1]。2CN106875278A说明书1/3页基于随机森林的社交网络用户画像方法技术领域[0001]本发明涉及在线社会网络技术领域,特别涉及一种基于随机森林的社交网络用户画像方法。背景技术[0002]在线社会网络的研究是近年来学术研究的重点领域,我国有着世界上规模最大的互联网网民,因此,在互联网的前期推广阶段和现阶段的使用过程中产生了大量的数据。绝大多数的数据资源被闲置,不能很好的处理和商业化应用,造成巨大的损失,同时也不利于社交网络的进一步发展,各大互联网公司纷纷投入巨大的财力和人力对在线社会关系领域开展一系列研究,把互联网的数据资源合理的开发和使用意义重大。发明内容[0003]本发明提供一种基于随机森林的社交网络用户画像方法,目的在于采用随机森林模型,用于用户的属性标签划分,有效改进了传统的基于小样本抽样划分属性的不足和复杂度的问题。[0004]为解决上述问题,本发明实施例提供一种基于随机森林的社交网络用户画像方法,具体包括如下步骤:[0005]获取在线社交网站的多源属性数据;[0006]将原始多源属性的数据属性集合进行原始属性标号,调用相似度函数对不同属性的数据属性集合遍历相似检测;[0007]根据原始单层多源属性的决策树,将相似度满足阈值范围的数据属性集合合并生成合并属性标签后,采用随机森林算法训练样本;[0008]获取投票众数,将获得的投票众数赋予权重,再按照权重的由大到小排序,获取全部的标签权重值;[0009]保留预设阈值内的标签,形成新的标签属性集用于用户社交网络中属性的画像。[0010]作为一种实施方式,还