预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115881095A(43)申请公布日2023.03.31(21)申请号202211519550.5G10L21/0216(2013.01)(22)申请日2022.11.30G10L19/00(2013.01)(71)申请人中国农业银行股份有限公司地址100005北京市东城区建国门内大街69号(72)发明人郭加伟(74)专利代理机构北京同立钧成知识产权代理有限公司11205专利代理师吴文茂黄健(51)Int.Cl.G10L15/02(2006.01)G10L15/06(2013.01)G10L15/08(2006.01)G10L15/16(2006.01)G10L15/25(2013.01)权利要求书2页说明书14页附图5页(54)发明名称视听语音识别方法、装置、设备、介质及产品(57)摘要本申请提供一种视听语音识别方法、装置、设备、介质及产品,该方法包括:获取待识别的视频特征和对应的含噪语谱图;所述视频特征为基于用户的唇部图像提取的特征;所述含噪语谱图为基于用户的音频数据提取生成的;将所述视频特征和所述含噪语谱图输入预设视听语音增强模型进行降噪处理,输出对应的增强语谱图;将所述增强语谱图和所述视频特征输入预设视听语音识别模型进行语音识别,输出对应的最终字符序列。本申请的视听语音识别方法,通过预设视听语音识别模型对增强语谱图和视频特征两种模态进行识别,以两种模态互补的方式,提高最终字符序列的准确性,从而提高了语音识别的准确性。CN115881095ACN115881095A权利要求书1/2页1.一种视听语音识别方法,其特征在于,包括:获取待识别的视频特征和对应的含噪语谱图;所述视频特征为基于用户的唇部图像提取的特征;所述含噪语谱图为基于用户的音频数据提取生成的;将所述视频特征和所述含噪语谱图输入预设视听语音增强模型进行降噪处理,输出对应的增强语谱图;将所述增强语谱图和所述视频特征输入预设视听语音识别模型进行语音识别,输出对应的最终字符序列。2.根据权利要求1所述的方法,其特征在于,所述获取待识别的视频特征和对应的含噪语谱图,包括:获取待识别的音频数据和视频数据;对所述音频数据进行预处理,以生成对应的含噪语谱图;所述预处理包括预加重处理、分帧操作、加窗处理、短时傅里叶变换和梅尔滤波处理;采用预设人脸识别工具对所述视频数据进行人脸识别,生成对应的人脸图像;将所述人脸图像输入预设伪三维残差卷积网络,以提取所述视频特征。3.根据权利要求2所述的方法,其特征在于,所述预设视听语音增强模型包括:视频编码器、音频编码器、预设融合降噪模块和音频解码器;所述将所述视频特征和所述含噪语谱图输入预设视听语音增强模型进行降噪处理,输出对应的增强语谱图,包括:将所述视频特征输入所述视频编码器进行编码处理,生成对应第一视频编码特征;将所述含噪语谱图输入所述音频编码器进行编码处理,生成对应第一音频编码特征;将所述第一视频编码特征和所述第一音频编码特征输入所述预设融合降噪模块进行融合降噪,生成降噪后的增强编码特征;将所述增强编码特征输入所述音频解码器进行解码处理,生成所述增强语谱图。4.根据权利要求3所述的方法,其特征在于,所述预设融合降噪模块包括:软阈值算法和阈值块;所述将所述第一视频编码特征和所述第一音频编码特征输入所述预设融合降噪模块进行融合降噪,生成降噪后的增强编码特征,包括:将所述第一视频编码特征和所述第一音频编码特征进行拼接,生成中间编码特征;将所述中间编码特征输入所述阈值块进行卷积池化处理和非线性变换处理,生成阈值参照值;采用所述软阈值算法根据所述阈值参照值对所述音频编码特征进行降噪处理,生成降噪后的增强编码特征。5.根据权利要求4所述的方法,其特征在于,所述预设视听语音识别模型包括视听编码器、预设视听融合算法、视听解码器和Softmax函数;所述将所述增强语谱图和所述视频特征输入预设视听语音识别模型进行语音识别,输出对应的最终字符序列,包括:将所述增强语谱图和所述视频特征输入所述视听编码器进行编码处理,生成对应的第二音频编码特征和第二视频编码特征;所述视听编码器包括时间卷积神经网络和跳过循环神经网络SkipRNN;2CN115881095A权利要求书2/2页采用所述预设视听融合算法对所述第二音频编码特征和所述第二视频编码特征进行跨模态注意力机制处理和融合处理,生成最终融合编码特征;将所述最终融合编码特征输入所述视听解码器进行解码处理,生成最终融合解码特征;采用Softmax函数对所述最终融合解码特征进行分类处理,输出概率最大值所对应的最终字符序列。6.根据权利要求5所述的方法,其特征在于,所述采用所述预设视听融合算法对所述第二音频编码特征和所述第二视频编码特征进行跨模态注意力机制