预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109710758A(43)申请公布日2019.05.03(21)申请号201811512490.8(22)申请日2018.12.11(71)申请人浙江工业大学地址310014浙江省杭州市下城区潮王路18号(72)发明人陈德富张峰铭何通能张伟锋(74)专利代理机构杭州求是专利事务所有限公司33200代理人刘静邱启旺(51)Int.Cl.G06F16/35(2019.01)G06F16/332(2019.01)权利要求书2页说明书8页附图2页(54)发明名称一种基于Labeled-LDA模型的用户音乐偏好分类方法(57)摘要本发明公开了一种基于Labeled-LDA模型的用户音乐偏好分类方法,该方法利用音乐社交平台的文本信息作为训练数据,结合了TF-IDF算法(词频-逆文档频率),低频专属名词库以及卡方检验算法形成一种混合型文本主题分类模型,克服了普通Labeled-LDA模型受文档无意义高频词汇干扰,难以突出关键特征词汇等缺陷,在精确度,召回率以及Macro-F1指标上都有较大的提升,非常适用于分析用户的音乐风格,对后续个性化提供音乐推荐方案具有重大意义。CN109710758ACN109710758A权利要求书1/2页1.一种基于Labeled-LDA模型的用户音乐偏好分类方法,其特征在于,包括以下步骤:步骤1获取数据及预处理:步骤1.1使用网络爬虫技术爬取大量音乐平台用户的歌单数据,存入数据库中,所述歌单数据包括用户名,用户对自己创建的歌单的相关介绍,以及歌单的标签;步骤1.2选定九大音乐风格:电子,古典,古风,爵士,民谣,轻音乐,说唱,摇滚,流行;取数据库中用户的歌单数据进行预处理,通过中文分词系统进行分词、常见停用词过滤处理,形成词袋;步骤2建立混合型文本主题分类模型:步骤2.1对不同风格的音乐建立一份低频专属名词库,将出现频率低但能够代表一类音乐风格的词汇收录其中;步骤2.2根据公式(1)将已经过步骤1.2初步预处理的歌单数据通过TF-IDF算法计算每个词的权重,将TF-IDF值大于阈值的词作为待分类文本的特征值,而小于该阈值的词添加到停用词列表中再一次进行过滤处理;其中:ni,j表示关键词j在文档i中出现的次数,q表示文档中的任意词汇;|D|表示语料库中的文档总数;|j:ti∈dj|表示包含词语ti的文档dj的个数,+1是为了防止分母为0;步骤2.3根据公式(2)对步骤2.2处理后的歌单数据进行卡方检验,计算每个词的卡方值:其中t代表词汇,k代表主题,A是包含词t且属于主题k的文档数量,B是包含词t但不属于主题k的文档数量,C是不包含词t且属于主题k的文档数量,D是不包含词t且不属于主题k的文档数量,N是语料库中文档的总数;步骤2.4基于Labeled-LDA模型的Gibbs采样算法,结合步骤2.1-步骤2.3的结果,建立混合型文本主题分类模型,其中,p(zi=k|z-i,w)表示当前词汇w在已知其他词各自所属主题的条件下,属于主题k的概率,zi表示文档第i个特征词对应的主题,z-i表示除去第i个词汇后剩余词汇的主题,m代表文档,k是当前文档所标记的主题,αk,βt是两个超参数,代表主题k中词汇t的数量,代表文档m中主题k的数量,K是主题向量,V是词汇向量,若当前词汇w存在于低频专属名词库中,则将该词的权重μ设为μ>2,否则μ<1,CHI(t,k)是词t对主题k的卡方值,W(t)是词t的TF-IDF值;2CN109710758A权利要求书2/2页步骤3训练数据与测试:步骤3.1将歌单训练数据经过步骤2,最终统计歌单数据中的主题-词频率矩阵,得到k个主题中每个主题下的词的分布概率,从而完成混合型文本主题分类模型的训练;步骤3.2将歌单测试数据输入到步骤3.1中已经训练好的混合型文本主题分类模型中,得到歌单测试数据的主题概率分布,即完成用户音乐偏好的分类。2.根据权利要求1所述的一种基于Labeled-LDA模型的用户音乐偏好分类方法,其特征在于,所述步骤1.2中,常见停用词过滤处理包括去除歌单介绍中的<br>标签。3CN109710758A说明书1/8页一种基于Labeled-LDA模型的用户音乐偏好分类方法技术领域[0001]本发明涉及自然语言处理领域,尤其涉及一种基于Labeled-LDA模型的用户音乐偏好分类方法。背景技术[0002]近几年在线音乐平台如网易云音乐等将“音乐社交”的理念植入平台,通过歌单、评论、分享等多种互动方式,形成其独具特色的社交生态。因此利用用户的社交信息来分析用户的音乐喜好,个性化地给用户推荐音乐变得尤为重要。[0003]本发明主要应用于音乐社交网络上用户的音乐喜好。集合某一用户在平台创建的歌单的所有介绍信息,