预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110473571A(43)申请公布日2019.11.19(21)申请号201910684758.4G10L21/0208(2013.01)(22)申请日2019.07.26(71)申请人北京影谱科技股份有限公司地址100102北京市朝阳区朝外大街22号5层521室(72)发明人樊硕(74)专利代理机构北京万思博知识产权代理有限公司11694代理人柴国伟(51)Int.Cl.G10L25/63(2013.01)G10L25/30(2013.01)G10L25/24(2013.01)G10L15/26(2006.01)G10L15/16(2006.01)权利要求书2页说明书7页附图4页(54)发明名称基于短视频语音的情感识别方法和装置(57)摘要本申请公开了一种基于短视频语音的情感识别方法和装置,属于语音情感识别技术领域。该方法包括:创建短视频的语音数据集,对语音数据集进行预处理,对预处理后的语音数据进行计算得到梅尔倒谱系数,作为输入送入CNN模型进行训练,得到声学情感类别C1;将预处理后的语音数据转换为文本数据,进行分词、去除停用词和文本特征抽取操作,再使用预训练的LSTM模型进行训练得到语义情感类别C2;按照预设的比重结合C1和C2,得到最终语音情感类别C。该装置包括:创建模块、预处理模块、声学识别模块、语义识别模块和结合模块。本申请扩展了语音情感识别中的情感特征维度,增强了分析的准确性和全面性,提高了语音情感识别的准确性。CN110473571ACN110473571A权利要求书1/2页1.一种基于短视频语音的情感识别方法,包括:创建短视频的语音数据集,其中包括多条含有中性、积极和消极情感的语音信息;对所述语音数据集进行预处理,消除语音信息中噪声数据的干扰;对所述预处理后的语音数据进行计算得到梅尔倒谱系数,将所述梅尔倒谱系数作为输入送入CNN模型进行训练,得到声学情感类别C1;将所述预处理后的语音数据转换为文本数据,进行分词、去除停用词和文本特征抽取操作,再使用预训练的LSTM模型进行训练得到语义情感类别C2;按照预设的比重结合所述声学情感类别C1和语义情感类别C2,得到最终语音情感类别C。2.根据权利要求1所述的方法,其特征在于,将所述梅尔倒谱系数作为输入送入CNN模型进行训练,得到声学情感类别C1,包括:将所述梅尔倒谱系数作为输入送入CNN模型进行训练,通过卷积层、池化层和全连接层对特征进行提取,最后通过Softmax层得到声学情感类别C1。3.根据权利要求1所述的方法,其特征在于,对所述预处理后的语音数据进行计算得到梅尔倒谱系数,包括:对所述预处理后的语音数据进行快速傅里叶变换,以及滤波器组滤波得到频谱,再通过离散余弦变换得到梅尔倒谱系数。4.根据权利要求1所述的方法,其特征在于,将所述预处理后的语音数据转换为文本数据,进行分词、去除停用词和文本特征抽取操作,包括:将所述预处理后的语音数据转换为文本数据,使用jieba对所述文本数据进行分词操作,使用停用词词典对所述文本数据去除停用词,采用词袋模式对所述文本数据进行特征抽取操作。5.根据权利要求1-4中任一项所述的方法,其特征在于,对所述语音数据集进行预处理,消除语音信息中噪声数据的干扰,包括:对所述语音数据集中语音信息的高频部分进行加重,消除口唇辐射的影响;对加重后的语音信息进行分段处理,将每一段设置成为一帧;采用指定的窗函数对每一帧数据进行变换运算。6.一种基于短视频语音的情感识别装置,包括:创建模块,其配置成创建短视频的语音数据集,其中包括多条含有中性、积极和消极情感的语音信息;预处理模块,其配置成对所述语音数据集进行预处理,消除语音信息中噪声数据的干扰;声学识别模块,其配置成对所述预处理后的语音数据进行计算得到梅尔倒谱系数,将所述梅尔倒谱系数作为输入送入CNN模型进行训练,得到声学情感类别C1;语义识别模块,其配置成将所述预处理后的语音数据转换为文本数据,进行分词、去除停用词和文本特征抽取操作,再使用预训练的LSTM模型进行训练得到语义情感类别C2;结合模块,其配置成按照预设的比重结合所述声学情感类别C1和语义情感类别C2,得到最终语音情感类别C。7.根据权利要求6所述的装置,其特征在于,所述声学识别模块具体配置成:2CN110473571A权利要求书2/2页将所述梅尔倒谱系数作为输入送入CNN模型进行训练,通过卷积层、池化层和全连接层对特征进行提取,最后通过Softmax层得到声学情感类别C1。8.根据权利要求6所述的装置,其特征在于,所述声学识别模块具体配置成:对所述预处理后的语音数据进行快速傅里叶变换,以及滤波器组滤波得到频谱,再通过离散余弦变换得到梅尔倒谱系数。9.根据权利要