预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113838460A(43)申请公布日2021.12.24(21)申请号202011617331.1G06K9/32(2006.01)(22)申请日2020.12.31G06F40/289(2020.01)(71)申请人京东科技控股股份有限公司地址100176北京市大兴区北京经济技术开发区科创十一街18号C座2层221室(72)发明人付立(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人张大威(51)Int.Cl.G10L15/22(2006.01)G10L15/26(2006.01)G10L25/87(2013.01)G10L25/57(2013.01)G10L15/04(2013.01)权利要求书2页说明书10页附图5页(54)发明名称视频语音识别方法、装置、设备和存储介质(57)摘要本申请提出一种视频语音识别方法、装置、设备和存储介质,涉及语音识别技术领域其中,方法,包括:对视频进行处理,获取多个音频子片段,以及与每个音频子片段对应的图像帧序列;对图像帧序列进行文本识别,获取多个文本结果,并对多个文本结果进行处理,获取多个关键词;通过语音识别模型对每个音频子片段进行处理,获取多个候选语音识别结果;根据多个候选语音识别结果和多个关键词确定每个音频子片段的目标文本识别结果,根据每个音频子片段的目标文本识别结果,获取视频的语音识别结果。由此,通过视频的图像中的文本识别结果辅助视频语音识别,提高视频语音识别的准确性。CN113838460ACN113838460A权利要求书1/2页1.一种视频语音识别方法,其特征在于,包括:对视频进行处理,获取多个音频子片段,以及与每个所述音频子片段对应的图像帧序列;对所述图像帧序列进行文本识别,获取多个文本结果,并对所述多个文本结果进行处理,获取多个关键词;通过语音识别模型对每个所述音频子片段进行处理,获取多个候选语音识别结果;根据所述多个候选语音识别结果和所述多个关键词确定每个所述音频子片段的目标文本识别结果,根据每个所述音频子片段的目标文本识别结果,获取所述视频的语音识别结果。2.如权利要求1所述的方法,其特征在于,所述对视频进行处理,获取多个音频子片段,以及与每个所述音频子片段对应的图像帧序列,包括:对视频进行处理,获取音频数据和图像数据;对所述音频数据进行静音检测,获取多个音频子片段;从所述图像数据中获取与每个所述音频子片段对应的图像帧序列。3.如权利要求2所述的方法,其特征在于,所述从所述图像数据中获取与每个所述音频子片段对应的图像帧序列,包括:获取每个所述音频子片段对应的开始时间和结束时间;根据所述开始时间和图像采样频率的比值确定开始帧图像,并根据所述结束时间与所述图像采样频率的比值确定结束帧图像;根据所述开始帧图像和所述结束帧图像从所述图像数据中确定区间帧图像,并按照预设频率对所述区间帧图像中进行图像抽取,获取每个所述音频子片段对应的图像帧序列。4.如权利要求1所述的方法,其特征在于,所述对所述图像帧序列进行文本识别,获取多个文本结果,包括:对所述图像帧系列中的每一帧图像进行光学字符识别,获取所述多个文本结果。5.如权利要求1所述的方法,其特征在于,所述对所述多个文本结果进行处理,获取多个关键词,包括:对每一条所述文本结果进行分词处理,获取多个分词;对所述多个分词进行过滤,获取所述多个关键词。6.如权利要求1所述的方法,其特征在于,所述根据所述多个候选语音识别结果和所述多个关键词确定所述每个音频子片段的目标文本识别结果,包括:获取每个候选语音识别文本的识别概率;获取所述每个候选语音识别文本的统计概率和第一系数;获取所述每个候选语音识别文本对应的所述多个关键词的贡献概率和第二系数;根据所述每个候选语音识别文本的所述识别概率、所述统计概率、所述第一系数、所述贡献概率和所述第二系数进行计算,获取所述每个候选语音识别文本的正确率;根据所述每个候选语音识别文本的正确率从所述多个候选语音识别结果中确定所述每个音频子片段的目标文本识别结果。7.一种视频语音识别装置,其特征在于,包括:第一获取模块,用于对视频进行处理,获取多个音频子片段,以及与每个所述音频子片2CN113838460A权利要求书2/2页段对应的图像帧序列;识别模块,用于对所述图像帧序列进行文本识别,获取多个文本结果;第二获取模块,用于对所述多个文本结果进行处理,获取多个关键词;处理模块,用于通过语音识别模型对每个所述音频子片段进行处理,获取多个候选语音识别结果;确定模块,用于根据所述多个候选语音识别结果和所述多个关键词确定每个所述音频子片段的目标文本识别结果;第三获取模块,用于根据每个所述音频子片段的目标文本识别结果,获取所述