预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115101090A(43)申请公布日2022.09.23(21)申请号202210535565.4G06V40/16(2022.01)(22)申请日2022.05.17G06V10/80(2022.01)G06V10/82(2022.01)(71)申请人科大讯飞股份有限公司G06N3/08(2006.01)地址230088安徽省合肥市高新区望江西路666号(72)发明人陈洁茹万根顺高建清潘嘉刘聪王智国胡国平(74)专利代理机构北京布瑞知识产权代理有限公司11505专利代理师尚文文(51)Int.Cl.G10L25/30(2013.01)G10L25/27(2013.01)G10L25/51(2013.01)G10L25/87(2013.01)权利要求书3页说明书19页附图5页(54)发明名称语音内容检测方法、模型训练方法及相关装置(57)摘要本申请提出一种语音内容检测方法、模型训练方法、装置、电子设备及存储介质,该方法包括:将目标语音的音频数据以及所述目标语音对应的视频数据,输入预先训练的多模态音频帧分类网络,得到对所述目标语音的各个音频帧的分类结果;其中,所述目标语音对应的视频数据中包含所述目标语音的说话人的面部影像;所述多模态音频帧分类网络,是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络;在所述联合训练过程中,所述辅助训练网络以语音训练样本的文本标签为训练标签,对语音训练样本进行语音内容识别训练。上述方法能够提高语音内容检测的准确度。CN115101090ACN115101090A权利要求书1/3页1.一种语音内容检测方法,其特征在于,包括:将目标语音的音频数据以及所述目标语音对应的视频数据,输入预先训练的多模态音频帧分类网络,得到对所述目标语音的各个音频帧的分类结果;其中,所述目标语音对应的视频数据中包含所述目标语音的说话人的面部影像;所述多模态音频帧分类网络,是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络;在所述联合训练过程中,所述辅助训练网络以语音训练样本的文本标签为训练标签,对语音训练样本进行语音内容识别训练。2.根据权利要求1所述的方法,其特征在于,所述多模态音频帧分类网络将所述目标语音的音频帧分类为语音帧或非语音帧的处理过程包括:将目标语音的音频数据输入预先训练的音频特征提取网络,得到目标语音的音频特征;以及,将所述目标语音对应的视频数据输入预先训练的唇形特征提取网络,得到所述目标语音对应的说话人的唇形特征;根据所述音频特征以及所述唇形特征,将所述目标语音的音频帧分类为语音帧或非语音帧;其中,所述音频特征提取网络与所述唇形特征提取网络通过特征一致性联合训练得到。3.根据权利要求1或2所述的方法,其特征在于,所述辅助训练网络,包括第一辅助训练网络,所述第一辅助训练网络用于对音频数据的音频帧进行音素分类处理。4.根据权利要求3所述的方法,其特征在于,所述辅助训练网络,还包括第二辅助训练网络,所述第二辅助训练网络用于对音频数据进行语音识别处理。5.根据权利要求3所述的方法,其特征在于,所述辅助训练网络,还包括第三辅助训练网络,所述第三辅助训练网络用于基于音频数据以及视频数据进行多模态语音识别处理。6.根据权利要求2所述的方法,其特征在于,所述音频特征提取网络与所述唇形特征提取网络的特征一致性联合训练过程,包括:利用音频特征提取网络对语音训练样本进行音频特征提取,得到音频特征,以及,利用唇形特征提取网络对所述语音训练样本对应的视频训练样本进行唇形特征提取,得到唇形特征;通过对比所述音频特征和所述唇形特征,确定对比损失函数;根据所述对比损失函数,对所述音频特征提取网络和所述唇形特征提取网络进行参数校正,以使所述音频特征提取网络提取的音频特征和所述唇形特征提取网络提取的唇形特征更匹配。7.根据权利要求2所述的方法,其特征在于,根据所述音频特征以及所述唇形特征,将所述目标语音的音频帧分类为语音帧或非语音帧,包括:对所述音频特征和所述唇形特征进行融合处理,得到音唇融合特征;根据所述音唇融合特征,将所述目标语音的音频帧分类为语音帧或非语音帧。8.根据权利要求7所述的方法,其特征在于,对所述音频特征和所述唇形特征进行融合处理,得到音唇融合特征,包括:对所述音频特征和所述唇形特征进行时间对齐处理,以使每帧音频特征和每帧唇形特征的特征维度相同;2CN115101090A权利要求书2/3页将时间对齐后的所述音频特征和所述唇形特征进行拼接,得到音唇融合特征;或者,将时间对齐后的所述音频特征和所述唇形特征进行拼接,得到音视频拼接特征;利用所述音频特征对所述音视频拼接特征进行特征过滤,得到过滤特征;将所述音频特征与所述