视频语音识别方法、装置、设备和存储介质-豆柴文库

视频语音识别方法、装置、设备和存储介质.pdf

2023-07-25

10金币

824KB

18页

曦晨****22

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共18页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113838460A(43)申请公布日2021.12.24(21)申请号202011617331.1G06K9/32(2006.01)(22)申请日2020.12.31G06F40/289(2020.01)(71)申请人京东科技控股股份有限公司地址100176北京市大兴区北京经济技术开发区科创十一街18号C座2层221室(72)发明人付立(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人张大威(51)Int.Cl.G10L15/22(2006.01)G10L15/26(2006.01)G10L25/87(2013.01)G10L25/57(2013.01)G10L15/04(2013.01)权利要求书2页说明书10页附图5页(54)发明名称视频语音识别方法、装置、设备和存储介质(57)摘要本申请提出一种视频语音识别方法、装置、设备和存储介质，涉及语音识别技术领域其中，方法，包括：对视频进行处理，获取多个音频子片段，以及与每个音频子片段对应的图像帧序列；对图像帧序列进行文本识别，获取多个文本结果，并对多个文本结果进行处理，获取多个关键词；通过语音识别模型对每个音频子片段进行处理，获取多个候选语音识别结果；根据多个候选语音识别结果和多个关键词确定每个音频子片段的目标文本识别结果，根据每个音频子片段的目标文本识别结果，获取视频的语音识别结果。由此，通过视频的图像中的文本识别结果辅助视频语音识别，提高视频语音识别的准确性。CN113838460ACN113838460A权利要求书1/2页1.一种视频语音识别方法，其特征在于，包括：对视频进行处理，获取多个音频子片段，以及与每个所述音频子片段对应的图像帧序列；对所述图像帧序列进行文本识别，获取多个文本结果，并对所述多个文本结果进行处理，获取多个关键词；通过语音识别模型对每个所述音频子片段进行处理，获取多个候选语音识别结果；根据所述多个候选语音识别结果和所述多个关键词确定每个所述音频子片段的目标文本识别结果，根据每个所述音频子片段的目标文本识别结果，获取所述视频的语音识别结果。2.如权利要求1所述的方法，其特征在于，所述对视频进行处理，获取多个音频子片段，以及与每个所述音频子片段对应的图像帧序列，包括：对视频进行处理，获取音频数据和图像数据；对所述音频数据进行静音检测，获取多个音频子片段；从所述图像数据中获取与每个所述音频子片段对应的图像帧序列。3.如权利要求2所述的方法，其特征在于，所述从所述图像数据中获取与每个所述音频子片段对应的图像帧序列，包括：获取每个所述音频子片段对应的开始时间和结束时间；根据所述开始时间和图像采样频率的比值确定开始帧图像，并根据所述结束时间与所述图像采样频率的比值确定结束帧图像；根据所述开始帧图像和所述结束帧图像从所述图像数据中确定区间帧图像，并按照预设频率对所述区间帧图像中进行图像抽取，获取每个所述音频子片段对应的图像帧序列。4.如权利要求1所述的方法，其特征在于，所述对所述图像帧序列进行文本识别，获取多个文本结果，包括：对所述图像帧系列中的每一帧图像进行光学字符识别，获取所述多个文本结果。5.如权利要求1所述的方法，其特征在于，所述对所述多个文本结果进行处理，获取多个关键词，包括：对每一条所述文本结果进行分词处理，获取多个分词；对所述多个分词进行过滤，获取所述多个关键词。6.如权利要求1所述的方法，其特征在于，所述根据所述多个候选语音识别结果和所述多个关键词确定所述每个音频子片段的目标文本识别结果，包括：获取每个候选语音识别文本的识别概率；获取所述每个候选语音识别文本的统计概率和第一系数；获取所述每个候选语音识别文本对应的所述多个关键词的贡献概率和第二系数；根据所述每个候选语音识别文本的所述识别概率、所述统计概率、所述第一系数、所述贡献概率和所述第二系数进行计算，获取所述每个候选语音识别文本的正确率；根据所述每个候选语音识别文本的正确率从所述多个候选语音识别结果中确定所述每个音频子片段的目标文本识别结果。7.一种视频语音识别装置，其特征在于，包括：第一获取模块，用于对视频进行处理，获取多个音频子片段，以及与每个所述音频子片2CN113838460A权利要求书2/2页段对应的图像帧序列；识别模块，用于对所述图像帧序列进行文本识别，获取多个文本结果；第二获取模块，用于对所述多个文本结果进行处理，获取多个关键词；处理模块，用于通过语音识别模型对每个所述音频子片段进行处理，获取多个候选语音识别结果；确定模块，用于根据所述多个候选语音识别结果和所述多个关键词确定每个所述音频子片段的目标文本识别结果；第三获取模块，用于根据每个所述音频子片段的目标文本识别结果，获取所述

相关资料

视频语音识别方法、装置、设备和存储介质.pdf

本申请提出一种视频语音识别方法、装置、设备和存储介质，涉及语音识别技术领域其中，方法，包括：对视频进行处理，获取多个音频子片段，以及与每个音频子片段对应的图像帧序列；对图像帧序列进行文本识别，获取多个文本结果，并对多个文本结果进行处理，获取多个关键词；通过语音识别模型对每个音频子片段进行处理，获取多个候选语音识别结果；根据多个候选语音识别结果和多个关键词确定每个音频子片段的目标文本识别结果，根据每个音频子片段的目标文本识别结果，获取视频的语音识别结果。由此，通过视频的图像中的文本识别结果辅助视频语音识别，

2023-07-25

824KB

语音识别方法、装置、设备和存储介质.pdf

本申请属于数据处理领域，具体涉及一种语音识别方法、装置、设备和存储介质。本申请旨在解决目前的智能设备识别用户指令的准确率较低的问题。本申请的语音识别方法，该方法包括：获取终端设备上设置的N个语音采集装置采到的N个待处理语音信号；将N个待处理语音信号中第n个待处理语音信号划分为M

2023-07-24

678KB

语音识别方法、装置和存储介质.pdf

本发明实施例公开了一种语音识别方法、装置和存储介质；本实施例在获取到音频数据后，可以通过DSP对该音频数据进行模糊语音识别，当确定存在唤醒词时，才由该DSP唤醒处于休眠状态的CPU，并通过CPU对该音频数据进行语义分析，然后，根据分析结果执行相应操作；该方案可以在保留移动性和语音唤醒功能的前提下，大大减少系统功耗，从而延长移动终端的待机时间，改善移动终端的性能。

2023-11-19

808KB

语音识别方法、装置和存储介质.pdf

本公开提出一种语音识别方法、装置和存储介质，涉及语音识别技术领域。本公开的一种语音识别方法，包括：根据当前语句的语音信号获取候选lattice；根据当前语句对应的上文文本重置神经网络模型，其中，上文文本为当前语句的前一句或多句的识别文本；通过重置后的神经网络模型对候选lattice重打分，获取重打分lattice；根据重打分lattice确定当前语句的识别文本。通过这样的方法，对当前语句的语音识别能够考虑到上文一句或多句的信息，从而更加充分的利用先验信息，使重打分更加准确，提高语音识别的准确率。

2023-06-14

529KB

语音识别方法、装置、设备及存储介质.pdf

本发明公开了一种语音识别方法、装置、设备及存储介质。该方法包括:将目标用户语音数据输入设定声学模型中,输出所述目标用户语音数据对应的声学特征序列;其中,所述目标用户语音数据携带有地域属性;所述声学特征序列包括多个声学特征;确定所述声学特征序列中各声学特征对应的至少一个目标词,获得多个目标词;将所述多个目标词输入领域语言模型中,输出目标语音识别结果;其中,所述目标语音识别结果由词序列表征。通过本发明的技术方案,可以提高语音识别的准确性。

2023-04-20

534KB