基于短视频语音的情感识别方法和装置-豆柴文库

基于短视频语音的情感识别方法和装置.pdf

2023-06-25

10金币

826KB

14页

元容****少女

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共14页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110473571A(43)申请公布日2019.11.19(21)申请号201910684758.4G10L21/0208(2013.01)(22)申请日2019.07.26(71)申请人北京影谱科技股份有限公司地址100102北京市朝阳区朝外大街22号5层521室(72)发明人樊硕(74)专利代理机构北京万思博知识产权代理有限公司11694代理人柴国伟(51)Int.Cl.G10L25/63(2013.01)G10L25/30(2013.01)G10L25/24(2013.01)G10L15/26(2006.01)G10L15/16(2006.01)权利要求书2页说明书7页附图4页(54)发明名称基于短视频语音的情感识别方法和装置(57)摘要本申请公开了一种基于短视频语音的情感识别方法和装置，属于语音情感识别技术领域。该方法包括：创建短视频的语音数据集，对语音数据集进行预处理，对预处理后的语音数据进行计算得到梅尔倒谱系数，作为输入送入CNN模型进行训练，得到声学情感类别C1；将预处理后的语音数据转换为文本数据，进行分词、去除停用词和文本特征抽取操作，再使用预训练的LSTM模型进行训练得到语义情感类别C2；按照预设的比重结合C1和C2，得到最终语音情感类别C。该装置包括：创建模块、预处理模块、声学识别模块、语义识别模块和结合模块。本申请扩展了语音情感识别中的情感特征维度，增强了分析的准确性和全面性，提高了语音情感识别的准确性。CN110473571ACN110473571A权利要求书1/2页1.一种基于短视频语音的情感识别方法，包括：创建短视频的语音数据集，其中包括多条含有中性、积极和消极情感的语音信息；对所述语音数据集进行预处理，消除语音信息中噪声数据的干扰；对所述预处理后的语音数据进行计算得到梅尔倒谱系数，将所述梅尔倒谱系数作为输入送入CNN模型进行训练，得到声学情感类别C1；将所述预处理后的语音数据转换为文本数据，进行分词、去除停用词和文本特征抽取操作，再使用预训练的LSTM模型进行训练得到语义情感类别C2；按照预设的比重结合所述声学情感类别C1和语义情感类别C2，得到最终语音情感类别C。2.根据权利要求1所述的方法，其特征在于，将所述梅尔倒谱系数作为输入送入CNN模型进行训练，得到声学情感类别C1，包括：将所述梅尔倒谱系数作为输入送入CNN模型进行训练，通过卷积层、池化层和全连接层对特征进行提取，最后通过Softmax层得到声学情感类别C1。3.根据权利要求1所述的方法，其特征在于，对所述预处理后的语音数据进行计算得到梅尔倒谱系数，包括：对所述预处理后的语音数据进行快速傅里叶变换，以及滤波器组滤波得到频谱，再通过离散余弦变换得到梅尔倒谱系数。4.根据权利要求1所述的方法，其特征在于，将所述预处理后的语音数据转换为文本数据，进行分词、去除停用词和文本特征抽取操作，包括：将所述预处理后的语音数据转换为文本数据，使用jieba对所述文本数据进行分词操作，使用停用词词典对所述文本数据去除停用词，采用词袋模式对所述文本数据进行特征抽取操作。5.根据权利要求1-4中任一项所述的方法，其特征在于，对所述语音数据集进行预处理，消除语音信息中噪声数据的干扰，包括：对所述语音数据集中语音信息的高频部分进行加重，消除口唇辐射的影响；对加重后的语音信息进行分段处理，将每一段设置成为一帧；采用指定的窗函数对每一帧数据进行变换运算。6.一种基于短视频语音的情感识别装置，包括：创建模块，其配置成创建短视频的语音数据集，其中包括多条含有中性、积极和消极情感的语音信息；预处理模块，其配置成对所述语音数据集进行预处理，消除语音信息中噪声数据的干扰；声学识别模块，其配置成对所述预处理后的语音数据进行计算得到梅尔倒谱系数，将所述梅尔倒谱系数作为输入送入CNN模型进行训练，得到声学情感类别C1；语义识别模块，其配置成将所述预处理后的语音数据转换为文本数据，进行分词、去除停用词和文本特征抽取操作，再使用预训练的LSTM模型进行训练得到语义情感类别C2；结合模块，其配置成按照预设的比重结合所述声学情感类别C1和语义情感类别C2，得到最终语音情感类别C。7.根据权利要求6所述的装置，其特征在于，所述声学识别模块具体配置成：2CN110473571A权利要求书2/2页将所述梅尔倒谱系数作为输入送入CNN模型进行训练，通过卷积层、池化层和全连接层对特征进行提取，最后通过Softmax层得到声学情感类别C1。8.根据权利要求6所述的装置，其特征在于，所述声学识别模块具体配置成：对所述预处理后的语音数据进行快速傅里叶变换，以及滤波器组滤波得到频谱，再通过离散余弦变换得到梅尔倒谱系数。9.根据权利要

相关资料

基于短视频语音的情感识别方法和装置.pdf

本申请公开了一种基于短视频语音的情感识别方法和装置，属于语音情感识别技术领域。该方法包括：创建短视频的语音数据集，对语音数据集进行预处理，对预处理后的语音数据进行计算得到梅尔倒谱系数，作为输入送入CNN模型进行训练，得到声学情感类别C1；将预处理后的语音数据转换为文本数据，进行分词、去除停用词和文本特征抽取操作，再使用预训练的LSTM模型进行训练得到语义情感类别C2；按照预设的比重结合C1和C2，得到最终语音情感类别C。该装置包括：创建模块、预处理模块、声学识别模块、语义识别模块和结合模块。本申请扩展了语

2023-06-25

826KB

基于深度学习的语音情感识别方法和装置.pdf

本申请公开了一种基于深度学习的语音情感识别方法和装置，属于语音识别领域。该方法包括：使用梅尔倒谱系数法得到多个训练样本，逐一输入到SVM中进行训练，判断当前训练样本情感识别的准确率，当高于上一训练样本的准确率时，将当前的c和g输入到PSO的适应度函数中，采用迭代方式对PSO进行粒子更新并重新计算适应度函数，直到得到PSO的全局最优解；在多个训练样本全部完成训练后，SVM寻优得到最优化的c和g；当有语音数据待识别时，输入SVM中进行情感识别。该装置包括：获取模块、初始化模块、训练模块、寻优模块和识别模块。本

2023-06-25

850KB

基于PDAN的跨库语音情感识别方法及装置.pdf

本发明公开了一种基于渐进式分布适配神经网络(ProgressiveDistributionAdaptedNeuralNetworks,PDAN)的跨库语音情感识别方法及装置,方法包括:(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库;(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本,并提样本的语谱图特征;(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型,此模型以卷积神经网络为主干网络,通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络

2023-05-13

1MB

视频语音识别方法、装置、设备和存储介质.pdf

本申请提出一种视频语音识别方法、装置、设备和存储介质，涉及语音识别技术领域其中，方法，包括：对视频进行处理，获取多个音频子片段，以及与每个音频子片段对应的图像帧序列；对图像帧序列进行文本识别，获取多个文本结果，并对多个文本结果进行处理，获取多个关键词；通过语音识别模型对每个音频子片段进行处理，获取多个候选语音识别结果；根据多个候选语音识别结果和多个关键词确定每个音频子片段的目标文本识别结果，根据每个音频子片段的目标文本识别结果，获取视频的语音识别结果。由此，通过视频的图像中的文本识别结果辅助视频语音识别，

2023-07-25

824KB

基于谱特征和ELM的语音情感识别方法.pdf

本发明提供的是一种基于谱特征和ELM的语音情感识别方法。原始语音信号进行基本特征提取包括韵律特征、音质特征；利用Teager能量算子TEO算法提取梅尔频率倒谱系数MFCC和耳蜗滤波倒谱系数CFCC，二者加权得到teCMFCC特征，并与基本特征值进行融合，构建特征矩阵；用Fisher准则和相关分析对特征进行选择降维，保留语音信号的个性特征；建立极限学习机ELM决策树模型，完成语音情感识别分类。本发明强调了语音信号的非线性特征，具有很好的鲁棒性，在中国科学院自动化研究所录制的CASIA中文情感语料库上进行实验

2023-06-25

688KB