预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111986655A(43)申请公布日2020.11.24(21)申请号202010829371.6H04N21/439(2011.01)(22)申请日2020.08.18H04N21/4402(2011.01)(71)申请人北京字节跳动网络技术有限公司地址100041北京市石景山区实兴大街30号院3号楼2层B-0035房间(72)发明人孔亚鲁何怡(74)专利代理机构北京卫智畅科专利代理事务所(普通合伙)11557代理人陈佳(51)Int.Cl.G10L15/04(2013.01)G10L15/26(2006.01)G10L15/00(2013.01)H04N21/233(2011.01)H04N21/2343(2011.01)权利要求书2页说明书8页附图4页(54)发明名称音频内容识别方法、装置、设备和计算机可读介质(57)摘要本公开的实施例公开了音频内容识别方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:对音频进行切分,得到语音片段集合和非语音片段集合;确定上述语音片段集合中的每个语音片段的类型和语种信息;对于上述语音片段集合中的每个语音片段,基于上述语音片段的类型和语种信息,对上述语音片段进行语音识别,得到第一识别结果。该实施方式通过将音频中的说话和音乐片段用不同的模型进行识别,使两种音频内容都能得到更好的识别效果。以及,通过使用不同的模型是被不同语种内容的音频,进一步提升了语音识别的效果。CN111986655ACN111986655A权利要求书1/2页1.一种音频内容识别方法,包括:对音频进行切分,得到语音片段集合和非语音片段集合;确定所述语音片段集合中的每个语音片段的类型和语种信息;对于所述语音片段集合中的每个语音片段,基于所述语音片段的类型和语种信息,对所述语音片段进行语音识别,得到第一识别结果。2.根据权利要求1所述的方法,其中,所述方法还包括:确定所述非语音片段集合中的每个非语音片段的标签;对所述第一识别结果和所述标签进行分句,得到第二识别结果。3.根据权利要求2所述的方法,其中,所述方法还包括:将所述第二识别结果中的每个分句添加到目标视频对应的视频帧中,得到带有字幕的视频。4.根据权利要求1所述的方法,其中,所述对预先获取到的音频进行切分,得到语音片段集合和非语音片段集合,包括:将所述预先获取到的音频输入到预先训练好的语音活性检测模型中,得到所述语音片段集合和所述非语音片段集合。5.根据权利要求1所述的方法,其中,所述语音片段的类型包括:拟声语音片段、说话语音片段和唱歌语音片段中的至少一项。6.根据权利要求1所述的方法,其中,所述确定所述语音片段集合中的每个语音片段的类型和语种信息,包括:将所述语音片段输入到预先训练好的音频事件检测模型中,得到所述语音片段的类型;将所述语音片段输入到预先训练好的语种识别模型中,得到所述语音片段的语种信息。7.根据权利要求1所述的方法,其中,所述对于所述语音片段集合中的每个语音片段,基于所述语音片段的类型和语种信息,对所述语音片段进行语音识别,得到第一识别结果,包括:对于所述语音片段集合中的每个语音片段,基于所述语音片段的类型和语种信息,在预先设定的语音识别模型集合中,确定用于识别所述语音片段的语音识别模型;将所述语音片段输入到用于识别所述语音片段的语音识别模型中,得到第一识别结果。8.根据权利要求2所述的方法,其中,所述确定所述非语音片段集合中的每个非语音片段的标签,包括:将所述非语音片段集合中的每个非语音片段输入到预先训练好的声音事件检测模型中,得到所述非语音片段的标签。9.一种音频内容识别装置,包括:切分单元,被配置成对音频进行切分,得到语音片段集合和非语音片段集合;第一确定单元,被配置成确定所述语音片段集合中的每个语音片段的类型和语种信息;识别单元,被配置成对于所述语音片段集合中的每个语音片段,基于所述语音片段的2CN111986655A权利要求书2/2页类型和语种信息,对所述语音片段进行语音识别,得到第一识别结果。10.一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。11.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。3CN111986655A说明书1/8页音频内容识别方法、装置、设备和计算机可读介质技术领域[0001]本公开的实施例涉及计算机技术领域,具体涉及音频内容识别方法、装置、设备和计算机可读介质。背景技术[0002]为了提升用户观看视频的体验,需要为视频添加字幕。人工