预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于文本挖掘的在线众筹项目推荐方法研究薛井红[摘要]随着在线众筹的快速发展用户从海量的众筹项目中搜寻感兴趣的项目信息越发困难。本文提出了基于文本挖掘的在线众筹项目推荐方法:首先利用LDA主题模型挖掘众筹项目的隐主题;其次基于隐主题构建众筹项目间的关联网络;最后对相关众筹项目进行推荐。基于京东众筹数据的实验表明基于文本挖掘的在线众筹项目推荐方法能够对众筹项目进行有效推荐。[关键词]在线众筹;文本挖掘;项目推荐;关联网络doi:10.3969/j.issn.1673-0194.2020.10.069[中图分类号]F724.6;F832.4[文献标识码]A[文章编号]1673-0194(2020)10-0-020引言在线众筹平台的快速发展虽然为企业筹措资金、推广产品提供了有效渠道但是随着平台上众筹项目越来越多消费者从海量的众筹项目中搜寻感兴趣的项目信息越发困难。因此如何帮助用户从众多的众筹项目中找到感兴趣的项目、如何帮助众筹项目准确定位目标用户是项目众筹成功的关键也是众筹平台关心的重要问题。研究者对在线众筹中的用户行为机制、众筹项目成功率预测方法和个性化推荐等问题进行了广泛研究但是众筹项目的文本描述等信息在现有研究中应用不足。对众筹项目的描述文本进行深入分析构建众筹项目的个性化推荐方法可以有效利用项目之间的内在关联提高众筹项目的推荐精度。本文从京东众筹平台下载了7334个众筹项目的描述文本在此基础上进行实验验证。本文实验表明所提方法可以对项目的关联关系进行有效分析有效提高众筹项目的推荐准确性。1众筹项目推荐模型构建1.1基于LDA的众筹项目隐主题建模假设是众筹项目描述的语料集合是项目m对应的描述词集合其中M是众筹项目的数量。设V是预先给定的隐主题数量V是语料中不重复的词的数量Nm是项目m的描述中词的数量。用Wmn来标记项目m的描述中的第n个词用Zmn标记该词所属的主题。为了估计文档-主题分布和主题-词分布需要计算联合分布。其中语料中每个词的生成概率和可以分别计算如下。其中Γ(x)是伽马函数。因此我们可以得到联合分布的计算公式如下。基于联合分布和Dirichlet-Multinomial共轭分布我们可以得到θ和Φ的计算公式如下。其中表示项目m的描述文档中所有词的主题分布。基于Dirichlet期望计算方法可以得到众筹项目描述的主题-词分布和文档-主题分布如下。基于φkv可以得到所有众筹项目描述的主题分布对深入了解众筹项目的内容和类型起到决策支持作用。θmk有助于分析每个众筹项目所属的众筹主题对分析项目之间的关联关系、准确推荐众筹项目具有决策支持作用。1.2基于隐主题分布的众筹项目关联分析与推荐假设众筹项目的关系网络用G=(DEW)表示其中D表示众筹项目E表示边的集合即项目之间的关联关系集合W表示項目两两之间的关联程度。为了构造项目关系网络G本文假设两个众筹项目i和j属于同一主题则他们之间存在一条连边同时属于的主题数越多连边的权重Wij则越大即Wij等于项目i和j同时属于的主题数量。由于主题模型中每个项目几乎在所有主题上都有概率分布而大量主题上的概率值极小。因此针对每个项目本文只取概率值最大的5个主题并以此为基础构建众筹项目的关系网络G。基于众筹项目的关系网络G本文构建的众筹项目推荐策略如下。①针对新用户本文利用结点介数(nodebetweenness)对众筹项目在关联网络中的重要性和流行性进行排序推荐项目集合中最重要和最流行的项目。项目i的介数定义为:。其中njk表示从项目j到项目k的最短路径数而nijk表示njk条最短路径中经过项目