预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110674339A(43)申请公布日2020.01.10(21)申请号201910879131.4(22)申请日2019.09.18(71)申请人北京工业大学地址100124北京市朝阳区平乐园100号(72)发明人朱贝贝王洁(74)专利代理机构北京思海天达知识产权代理有限公司11203代理人沈波(51)Int.Cl.G06F16/65(2019.01)G06F16/683(2019.01)G06N3/04(2006.01)权利要求书2页说明书6页附图4页(54)发明名称一种基于多模态融合的中文歌曲情感分类方法(57)摘要本发明公开了一种基于多模态融合的中文歌曲情感分类方法,首先从音频信号中获取声谱图,并提取音频低层特征,然后基于LLD-CRNN模型进行音频特征学习,从而得到中文歌曲的音频特征;对于歌词和评论信息,首先构建音乐情感词典,然后以该词典为基础,构造基于情感强度和词性的情感向量,从而得到中文歌曲的文本特征;最后使用决策融合和特征融合两种方法进行多模态融合,得到中文歌曲的情感类别。本方法基于LLD-CRNN的音乐情感分类模型,该模型结合使用声谱图和音频低层特征作为输入序列。LLD集中在时域或频域,对于时、频特性关联变化的音频信号,而声谱图是音频信号在频率上的二维表示,在信息量上损失较少,因此,LLD和声谱图可以实现信息互补。CN110674339ACN110674339A权利要求书1/2页1.一种基于多模态融合的中文歌曲情感分类方法,对于音频信息,首先从音频信号中获取声谱图,并提取音频低层特征,然后基于LLD-CRNN模型进行音频特征学习,从而得到中文歌曲的音频特征;对于歌词和评论信息,首先构建音乐情感词典,然后以该词典为基础,构造基于情感强度和词性的情感向量,从而得到中文歌曲的文本特征;最后使用决策融合和特征融合两种方法进行多模态融合,得到中文歌曲的情感类别;其特征在于:该方法包括以下步骤,步骤一,输入原始中文歌曲数据;原始中文歌曲数据包括:训练样本集、训练样本集标签、测试样本集和测试样本集标签;训练样本集标签、测试样本集标签即为每个样本数据对应的数据所属类别;每个样本数据包含原始中文歌曲的歌词、音乐评论和音频;步骤二,从歌曲的音频信号中获取声谱图,并提取音频特征;音频信号是一个一维数组,该数组的长度由音频的时长和采样频率决定;通常从时域和频域两个角度分析音频信号特征,音频信号在时域上的变化快速而不稳定,并且频域信号比时域信号更符合人类听觉机制,将音频信号从时域转到频域,进而对音频进行分析;将歌曲的音频信号进行分帧加窗等预处理后,对每一帧做快速傅里叶变换,将时域信号转换为频域信号,把每一帧经过变换后的频域信号在时间上堆叠起来得到声谱图;此外,从音频信号中提取音频低层特征,音频低层特征包括Mel频率倒谱系数、基频特征、共振峰特征、八音频谱对比度和Chroma特征;步骤三,基于LLD-CRNN模型学习音频特征;LLD-CRNN模型分为两个部分,分别以CRNN和双向门限循环单元模型(Bi-directionalGatedRecurrentUnit,Bi-GRU)作为分类模型;该分类模型结合使用声谱图和音频低层特征作为输入序列,以实现信息互补;CRNN部分将声谱图作为输入,提取音频的局部特征和序列特征;LLD作为Bi-GRU部分的输入,进一步获取音频特征的序列信息;最后将CRNN部分和Bi-GRU部分的音频特征连接后作为多模态音乐情感分类任务中的音频特征;步骤四,构建音乐情感词典;首先以VA情感模型为基础构建情感词表,采用Word2vec中词语相似度计算的思想扩展情感词表,构建中文音乐情感词典,词典中包含每个词的情感类别和情感权值;步骤五,提取文本特征以音乐情感词典为基础构造中文歌曲的文本特征,其中,文本包括歌词和评论;首先,对歌曲相关文本进行分词、去停用词、词性标注和词频统计等预处理操作;然后,采用情感词表中的4维情感类别作为情感向量,将文本中的实词与情感词典进行匹配,得到每个实词的情感类别和情感权值;最后,采用词频逆文档频率规则计算出每个情感类别的统计值,并进一步考虑词性对情感分类的影响,将情感向量扩展到16个维度;步骤六,基于多模态融合进行中文歌曲情感分类;将步骤三中得到的音频特征和步骤五中构造的文本特征进行多模态融合,得到中文歌曲的情感类别;多模态融合方法包括决策融合和特征融合两种方法,其中决策融合采用线性结合和子任务结合两种方式。2.根据权利要求1所述的一种基于多模态融合的中文歌曲情感分类方法,其特征在于:决策融合的单模态分类结果融合方式为线性结合;首先,对音频和歌曲相关文本进行分类,2CN110674339A权利要求书2/2页将音频特征