音频内容识别方法、装置、设备和计算机可读介质-豆柴文库

音频内容识别方法、装置、设备和计算机可读介质.pdf

2023-12-03

10金币

626KB

15页

景福****90

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111986655A(43)申请公布日2020.11.24(21)申请号202010829371.6H04N21/439(2011.01)(22)申请日2020.08.18H04N21/4402(2011.01)(71)申请人北京字节跳动网络技术有限公司地址100041北京市石景山区实兴大街30号院3号楼2层B-0035房间(72)发明人孔亚鲁何怡(74)专利代理机构北京卫智畅科专利代理事务所(普通合伙)11557代理人陈佳(51)Int.Cl.G10L15/04(2013.01)G10L15/26(2006.01)G10L15/00(2013.01)H04N21/233(2011.01)H04N21/2343(2011.01)权利要求书2页说明书8页附图4页(54)发明名称音频内容识别方法、装置、设备和计算机可读介质(57)摘要本公开的实施例公开了音频内容识别方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：对音频进行切分，得到语音片段集合和非语音片段集合；确定上述语音片段集合中的每个语音片段的类型和语种信息；对于上述语音片段集合中的每个语音片段，基于上述语音片段的类型和语种信息，对上述语音片段进行语音识别，得到第一识别结果。该实施方式通过将音频中的说话和音乐片段用不同的模型进行识别，使两种音频内容都能得到更好的识别效果。以及，通过使用不同的模型是被不同语种内容的音频，进一步提升了语音识别的效果。CN111986655ACN111986655A权利要求书1/2页1.一种音频内容识别方法，包括：对音频进行切分，得到语音片段集合和非语音片段集合；确定所述语音片段集合中的每个语音片段的类型和语种信息；对于所述语音片段集合中的每个语音片段，基于所述语音片段的类型和语种信息，对所述语音片段进行语音识别，得到第一识别结果。2.根据权利要求1所述的方法，其中，所述方法还包括：确定所述非语音片段集合中的每个非语音片段的标签；对所述第一识别结果和所述标签进行分句，得到第二识别结果。3.根据权利要求2所述的方法，其中，所述方法还包括：将所述第二识别结果中的每个分句添加到目标视频对应的视频帧中，得到带有字幕的视频。4.根据权利要求1所述的方法，其中，所述对预先获取到的音频进行切分，得到语音片段集合和非语音片段集合，包括：将所述预先获取到的音频输入到预先训练好的语音活性检测模型中，得到所述语音片段集合和所述非语音片段集合。5.根据权利要求1所述的方法，其中，所述语音片段的类型包括：拟声语音片段、说话语音片段和唱歌语音片段中的至少一项。6.根据权利要求1所述的方法，其中，所述确定所述语音片段集合中的每个语音片段的类型和语种信息，包括：将所述语音片段输入到预先训练好的音频事件检测模型中，得到所述语音片段的类型；将所述语音片段输入到预先训练好的语种识别模型中，得到所述语音片段的语种信息。7.根据权利要求1所述的方法，其中，所述对于所述语音片段集合中的每个语音片段，基于所述语音片段的类型和语种信息，对所述语音片段进行语音识别，得到第一识别结果，包括：对于所述语音片段集合中的每个语音片段，基于所述语音片段的类型和语种信息，在预先设定的语音识别模型集合中，确定用于识别所述语音片段的语音识别模型；将所述语音片段输入到用于识别所述语音片段的语音识别模型中，得到第一识别结果。8.根据权利要求2所述的方法，其中，所述确定所述非语音片段集合中的每个非语音片段的标签，包括：将所述非语音片段集合中的每个非语音片段输入到预先训练好的声音事件检测模型中，得到所述非语音片段的标签。9.一种音频内容识别装置，包括：切分单元，被配置成对音频进行切分，得到语音片段集合和非语音片段集合；第一确定单元，被配置成确定所述语音片段集合中的每个语音片段的类型和语种信息；识别单元，被配置成对于所述语音片段集合中的每个语音片段，基于所述语音片段的2CN111986655A权利要求书2/2页类型和语种信息，对所述语音片段进行语音识别，得到第一识别结果。10.一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。11.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。3CN111986655A说明书1/8页音频内容识别方法、装置、设备和计算机可读介质技术领域[0001]本公开的实施例涉及计算机技术领域，具体涉及音频内容识别方法、装置、设备和计算机可读介质。背景技术[0002]为了提升用户观看视频的体验，需要为视频添加字幕。人工

相关资料

音频内容识别方法、装置、设备和计算机可读介质.pdf

本公开的实施例公开了音频内容识别方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：对音频进行切分，得到语音片段集合和非语音片段集合；确定上述语音片段集合中的每个语音片段的类型和语种信息；对于上述语音片段集合中的每个语音片段，基于上述语音片段的类型和语种信息，对上述语音片段进行语音识别，得到第一识别结果。该实施方式通过将音频中的说话和音乐片段用不同的模型进行识别，使两种音频内容都能得到更好的识别效果。以及，通过使用不同的模型是被不同语种内容的音频，进一步提升了语音识别的效果。

2023-12-03

626KB

音频识别方法、装置和计算机可读存储介质.pdf

提供了音频识别方法、装置和计算机可读存储介质。方法可以由包括云服务器的计算机设备执行，并且包括：提取待识别音频文件的音频特征；待识别音频文件进行分段，得到多个音频时间片，并基于每个音频时间片内的音频的事件类别以及所述事件类别与预设目标事件的相关性，确定与音频时间片关联的音频特征的权重；基于待识别音频文件的音频特征得到多个音频特征分段，其中每个音频特征分段对应至少一个时间片；将每个音频特征分段与音频特征组合库进行特征匹配，并基于至少一个音频时间片中的音频特征以及与其关联的权重，得到所述音频特征分段的匹配音频

2023-07-25

1.3MB

音频的识别方法、装置、可读介质和电子设备.pdf

本公开涉及一种音频的识别方法、装置、可读介质和电子设备，涉及电子信息处理技术领域，该方法包括：获取待识别音频，提取用于表征待识别音频的目标音频特征，目标音频特征的维度与待识别音频的时长正相关，利用预先训练的识别模型，根据目标音频特征确定指定维度的统计特征，并根据统计特征确定待识别音频包括的目标音频事件，识别模型根据预先采集的训练音频集训练得到，训练音频集包括不同时长的训练音频。本公开中识别模型对不同时长的音频进行特征提取，以得到指定维度的统计特征，从而识别音频中包括的音频事件，无需对音频进行截取或补齐操作

2023-07-24

705KB

音频识别方法、装置、电子设备和可读存储介质.pdf

本申请提供一种音频识别方法、装置、电子设备和可读存储介质，首先利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频，第一类噪声为非语音噪声。再利用预先构建的第二过滤模型对第一识别音频中的第二类噪声进行过滤得到第二识别音频，第一识别音频中包含目标语音和非目标语音，第二类噪声属于非目标语音。最后，将第二识别音频导入预先构建的识别模型，对第二识别音频中的目标语音进行处理得到对应的文本。该方案，预先对非语音噪声和属于非目标语音的噪声进行过滤处理，降低了语音识别的处理压力且排除各类噪声的干扰

2023-07-24

843KB

会话内容识别方法、装置、设备及计算机可读介质.pdf

本申请涉及一种会话内容识别方法、装置、设备及计算机可读介质。该方法包括：获取会话文本，并将会话文本分割为至少一个目标会话片段；将目标会话片段输入预设的会话类型识别模型，以对目标会话片段添加分类标签；基于目标会话片段抽取出分类标签对应的目标事件。本申请通过分割会话并进行事件抽取，能够根据会话的上下文逻辑关系识别会话的核心内容，从而使得会话内容的识别更加符合用户的真实想法，准确度更高，解决了存在逻辑的会话内容提取不准确的技术问题。

2023-07-25

427KB