预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111460213A(43)申请公布日2020.07.28(21)申请号202010199527.7G10L25/03(2013.01)(22)申请日2020.03.20G10L25/51(2013.01)(71)申请人河海大学地址211100江苏省南京市江宁区佛城西路8号(72)发明人李晓双韩立新李景仙(74)专利代理机构南京经纬专利商标代理有限公司32200代理人罗运红(51)Int.Cl.G06F16/65(2019.01)G06F16/683(2019.01)G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书1页说明书5页附图1页(54)发明名称一种基于多模态学习的音乐情感分类方法(57)摘要本发明公开了一种基于多模态学习的音乐情感分类方法,包含以下步骤:数据预处理,根据所需模态信息对音乐的音频、歌词、评论分别进行预处理来获取模型的有效输入;表示学习,将每个模态使用不同的建模方式分别映射到各自的表示空间;特征提取,提取不同模态的模型映射后的特征向量,并降维至同一维度;多模态融合,将三种不同模态的特征进行级联早融合,从而建立更全面的特征表示;情感分类决策,使用融合后的特征对音乐进行有监督的情感分类。本发明的音乐情感分类方法,提供了一种基于多模态联合学习的方法,可以有效的减少目前主流的单模态模型方法存在噪声或数据缺失的不足,增加音乐情感分类的准确性和稳定性。CN111460213ACN111460213A权利要求书1/1页1.一种基于多模态学习的音乐情感分类方法,其特征在于:包括以下步骤:S1、数据预处理,对M首歌的音频数据、歌词数据、用户评论这三种不同模态的信息分别进行预处理,依据情感类别构建数据集;S2、表示学习,构建三种模态的表示学习网络模型,将每个模态映射到各自的表示空间,分别训练各模态表示学习网络模型;S3、特征提取,通过步骤S2训练后的网络模型分别提取对应模态的特征向量,并降维到K维向量,分别得到三种模态的K维特征向量;S4、多模态融合,对步骤S3提取的三类K维特征向量,通过融合模型进行多模态级联融合,建立全面情感特征表示;S5、情感分类决策,利用Softmax函数作为分类器对融合后的K维特征进行音乐情感分类的训练,最终生成情感分类器,用于对未分类的歌曲添加情感标签。2.根据权利要求1所述的一种基于多模态学习的音乐情感分类方法,其特征在于:所述步骤S1,预处理过程如下:对音频数据以44100赫兹的采样频率将每首歌切分为若干段t秒的音频,通过离散傅里叶变换将其转化为频域信息,保存为语谱图;对歌词数据利用结巴分词进行章、节、词的划分;对用户评论进行过滤清洗,将其序列化并统一长度。3.根据权利要求2所述的一种基于多模态学习的音乐情感分类方法,其特征在于:所述步骤S2,表示学习具体为:对音频数据转化后的语谱图利用深度残差网络ResNet建立音频-语谱图识别模型;对歌词数据利用双向长短时期记忆网络BiLSTM建立歌词-主题模型;对评论数据利用向量空间模型VSM建立评论-词向量模型;分别得到不同模态下音乐数据的特征表示。4.根据权利要求1-3任一所述的一种基于多模态学习的音乐情感分类方法,其特征在于:所述步骤S4,融合模型通过增加线性依赖项来实现多模态融合,具体特征融合过程表示为:Z→Wj其中Z表示一个未知样本,其归属于第j个模式类Wj,该类为在已知条件F(Wj)下后验概率最大的模式类;其后验概率表示为:其中xij代表样本的Ni维特征向量的第j个维度,i∈[1,M],j∈[1,N],M是设定的分类器个数,N为样本特征总体维度;表示第i个分类器的依赖权重,是一个极小值;P(wk|xin)表示第k类的后验概率。2CN111460213A说明书1/5页一种基于多模态学习的音乐情感分类方法技术领域[0001]本发明涉及情感识别领域和多模态学习领域,具体涉及一种基于多模态学习的音乐情感分类方法。背景技术[0002]情感识别领域中广泛使用的情感特征有基于语句的全局统计特征和基于语音的时序特征,但这两类基于不同时长的情感特征均不能有效的表达情感问题。目前研究最多的是将声学特征作为辅助语义信息进行语音情感识别,将蕴含在语音中的情感信息提取出来并识别其类别。常用的语音特征的提取方式有:基频特征提取、共振峰特征提取、Mel频率倒谱系数(MFCC)提取、基于导数的非个性语音情感特征提取和基于Teager能量算子非线性特征提取等,然后利用传统的机器学习方法对提取到的特征进行有监督学习从而实现语音的情感分类。然而,对于音乐特征来说,歌曲的音频中常掺杂其他乐器产生的噪声或在传播过程中添加的噪声,会对传统的特征数据