视听语音识别方法、装置、设备、介质及产品-豆柴文库

视听语音识别方法、装置、设备、介质及产品.pdf

2023-06-28

10金币

845KB

22页

一条****轩吗

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共22页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115881095A(43)申请公布日2023.03.31(21)申请号202211519550.5G10L21/0216(2013.01)(22)申请日2022.11.30G10L19/00(2013.01)(71)申请人中国农业银行股份有限公司地址100005北京市东城区建国门内大街69号(72)发明人郭加伟(74)专利代理机构北京同立钧成知识产权代理有限公司11205专利代理师吴文茂黄健(51)Int.Cl.G10L15/02(2006.01)G10L15/06(2013.01)G10L15/08(2006.01)G10L15/16(2006.01)G10L15/25(2013.01)权利要求书2页说明书14页附图5页(54)发明名称视听语音识别方法、装置、设备、介质及产品(57)摘要本申请提供一种视听语音识别方法、装置、设备、介质及产品，该方法包括：获取待识别的视频特征和对应的含噪语谱图；所述视频特征为基于用户的唇部图像提取的特征；所述含噪语谱图为基于用户的音频数据提取生成的；将所述视频特征和所述含噪语谱图输入预设视听语音增强模型进行降噪处理，输出对应的增强语谱图；将所述增强语谱图和所述视频特征输入预设视听语音识别模型进行语音识别，输出对应的最终字符序列。本申请的视听语音识别方法，通过预设视听语音识别模型对增强语谱图和视频特征两种模态进行识别，以两种模态互补的方式，提高最终字符序列的准确性，从而提高了语音识别的准确性。CN115881095ACN115881095A权利要求书1/2页1.一种视听语音识别方法，其特征在于，包括：获取待识别的视频特征和对应的含噪语谱图；所述视频特征为基于用户的唇部图像提取的特征；所述含噪语谱图为基于用户的音频数据提取生成的；将所述视频特征和所述含噪语谱图输入预设视听语音增强模型进行降噪处理，输出对应的增强语谱图；将所述增强语谱图和所述视频特征输入预设视听语音识别模型进行语音识别，输出对应的最终字符序列。2.根据权利要求1所述的方法，其特征在于，所述获取待识别的视频特征和对应的含噪语谱图，包括：获取待识别的音频数据和视频数据；对所述音频数据进行预处理，以生成对应的含噪语谱图；所述预处理包括预加重处理、分帧操作、加窗处理、短时傅里叶变换和梅尔滤波处理；采用预设人脸识别工具对所述视频数据进行人脸识别，生成对应的人脸图像；将所述人脸图像输入预设伪三维残差卷积网络，以提取所述视频特征。3.根据权利要求2所述的方法，其特征在于，所述预设视听语音增强模型包括：视频编码器、音频编码器、预设融合降噪模块和音频解码器；所述将所述视频特征和所述含噪语谱图输入预设视听语音增强模型进行降噪处理，输出对应的增强语谱图，包括：将所述视频特征输入所述视频编码器进行编码处理，生成对应第一视频编码特征；将所述含噪语谱图输入所述音频编码器进行编码处理，生成对应第一音频编码特征；将所述第一视频编码特征和所述第一音频编码特征输入所述预设融合降噪模块进行融合降噪，生成降噪后的增强编码特征；将所述增强编码特征输入所述音频解码器进行解码处理，生成所述增强语谱图。4.根据权利要求3所述的方法，其特征在于，所述预设融合降噪模块包括：软阈值算法和阈值块；所述将所述第一视频编码特征和所述第一音频编码特征输入所述预设融合降噪模块进行融合降噪，生成降噪后的增强编码特征，包括：将所述第一视频编码特征和所述第一音频编码特征进行拼接，生成中间编码特征；将所述中间编码特征输入所述阈值块进行卷积池化处理和非线性变换处理，生成阈值参照值；采用所述软阈值算法根据所述阈值参照值对所述音频编码特征进行降噪处理，生成降噪后的增强编码特征。5.根据权利要求4所述的方法，其特征在于，所述预设视听语音识别模型包括视听编码器、预设视听融合算法、视听解码器和Softmax函数；所述将所述增强语谱图和所述视频特征输入预设视听语音识别模型进行语音识别，输出对应的最终字符序列，包括：将所述增强语谱图和所述视频特征输入所述视听编码器进行编码处理，生成对应的第二音频编码特征和第二视频编码特征；所述视听编码器包括时间卷积神经网络和跳过循环神经网络SkipRNN；2CN115881095A权利要求书2/2页采用所述预设视听融合算法对所述第二音频编码特征和所述第二视频编码特征进行跨模态注意力机制处理和融合处理，生成最终融合编码特征；将所述最终融合编码特征输入所述视听解码器进行解码处理，生成最终融合解码特征；采用Softmax函数对所述最终融合解码特征进行分类处理，输出概率最大值所对应的最终字符序列。6.根据权利要求5所述的方法，其特征在于，所述采用所述预设视听融合算法对所述第二音频编码特征和所述第二视频编码特征进行跨模态注意力机制

相关资料

视听语音识别方法、装置、设备、介质及产品.pdf

本申请提供一种视听语音识别方法、装置、设备、介质及产品，该方法包括：获取待识别的视频特征和对应的含噪语谱图；所述视频特征为基于用户的唇部图像提取的特征；所述含噪语谱图为基于用户的音频数据提取生成的；将所述视频特征和所述含噪语谱图输入预设视听语音增强模型进行降噪处理，输出对应的增强语谱图；将所述增强语谱图和所述视频特征输入预设视听语音识别模型进行语音识别，输出对应的最终字符序列。本申请的视听语音识别方法，通过预设视听语音识别模型对增强语谱图和视频特征两种模态进行识别，以两种模态互补的方式，提高最终字符序列的

2023-06-28

845KB

语音识别方法、装置、终端、系统、介质及产品.pdf

本申请属于人工智能技术领域,具体提供一种语音识别方法、装置、终端、系统、介质及产品,方法包括:获取目标用户待识别的用户语音数据;将用户语音数据输入AI芯片中训练至收敛的语音识别模型,以生成语音识别结果;其中,语音识别模型为根据用户训练样本和语音识别服务器的通用识别模型训练生成的;语音识别模型与目标用户相匹配;输出语音识别结果。本申请的语音识别方法,通过与用户匹配性较高的语音识别模型对目标用户待识别的用户语音数据进行识别,生成的语音识别结果准确性较高,同时,由于语音识别模型设于AI芯片中,不需要通过网络传输

2023-05-26

615KB

语音识别方法、装置、设备及存储介质.pdf

本发明公开了一种语音识别方法、装置、设备及存储介质。该方法包括:将目标用户语音数据输入设定声学模型中,输出所述目标用户语音数据对应的声学特征序列;其中,所述目标用户语音数据携带有地域属性;所述声学特征序列包括多个声学特征;确定所述声学特征序列中各声学特征对应的至少一个目标词,获得多个目标词;将所述多个目标词输入领域语言模型中,输出目标语音识别结果;其中,所述目标语音识别结果由词序列表征。通过本发明的技术方案,可以提高语音识别的准确性。

2023-04-20

534KB

语音信号的识别方法、装置、电子设备、存储介质及产品.pdf

本申请提供了一种语音信号的识别方法、装置、电子设备、存储介质及产品，属于语音交互技术领域。方法包括：接收目标语音信号，确定目标语音信号包括的多个语音帧；确定多个语音帧在第一解码图中的第一路径的第一解码参数，以及确定多个语音帧在第二解码图中的第二路径的第二解码参数；在第一解码参数和第二解码参数的差值不大于预设差值的情况下，确定第一路径包括的多个第一节点和每个第一节点的解码参数；基于第一解码参数、多个第一节点和每个第一节点的解码参数，确定目标语音信号的识别结果，识别结果用于表示是否唤醒电子设备。由于既考虑了语

2023-07-24

806KB

语音识别方法、装置、设备、存储介质和计算机程序产品.pdf

本申请公开了一种语音识别方法、装置、设备、存储介质和计算机程序产品。本申请实施例提供的语音识别方法包括：获取待识别的第一语音；根据目标语音识别模型，确定待识别的第一语音对应的第一文本信息，其中，目标语音识别模型是通过目标词集对训练好的初始语音识别模型更新得到的，目标词集包括在预设时间段内初始语音识别模型未识别的第一关键词和/或未识别的第一关键词组合。根据本申请实施例，能够解决语音识别系统识别效率和识别准确率相对较低，影响用户使用体验的问题。

2023-07-24

381KB