预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114171006A(43)申请公布日2022.03.11(21)申请号202111443133.2(22)申请日2021.11.30(71)申请人展讯通信(上海)有限公司地址201203上海市浦东新区自由贸易试验区祖冲之路2288弄展讯中心1号楼(72)发明人姜双双戚萌陆成董斐(74)专利代理机构上海弼兴律师事务所31283代理人金学来罗朗(51)Int.Cl.G10L15/02(2006.01)G10L15/04(2013.01)G10L15/06(2013.01)G10L15/26(2006.01)权利要求书2页说明书8页附图2页(54)发明名称音频处理方法、装置、电子设备、存储介质(57)摘要本发明公开了音频处理方法、装置、电子设备、存储介质。该音频处理方法,包括:确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列;确定目标语料在所述语料序列中的位置信息;将各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧,确定为所述目标语料的初始音频帧;从所述初始音频帧中确定对应于所述位置信息的目标音频帧,并将所述目标音频帧确定为包含所述目标语料的音频片段。从而,能够准确定位目标语料在音频数据中的位置,准确确定音频数据中包含目标语料的音频片段,相较于人工确定目标语料的位置的方式,不仅节省了人力成本,还具有效率高、准确度高的优点。CN114171006ACN114171006A权利要求书1/2页1.一种音频处理方法,其特征在于,包括:确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列;确定目标语料在所述语料序列中的位置信息;将各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧,确定为所述目标语料的初始音频帧;从所述初始音频帧中确定对应于所述位置信息的目标音频帧,并将所述目标音频帧确定为包含所述目标语料的音频片段。2.根据权利要求1所述的音频处理方法,其特征在于,确定目标语料在所述语料序列中的位置信息,包括:在所述目标语料包含多个语料的情况下,将所述语料序列的所有音素中与所述目标语料包含的多个语料的排序规则相匹配的音素的位置信息,确定为所述目标语料在所述语料序列中的位置信息。3.根据权利要求1所述的音频处理方法,其特征在于,从所述初始音频帧中确定对应于所述位置信息的目标音频帧,包括:从所述音频数据的所有音频帧中确定出非静音帧;将所述初始音频帧中帧坐标落入所述位置信息对应的非静音帧的帧坐标范围内的音频帧确定为所述目标音频帧;所述帧坐标范围的下限值为所述位置信息表征的帧坐标,所述帧坐标范围的上限值为所述位置信息表征的帧坐标与帧数差之和,所述帧数差为所述语料序列中语料的数量与从所述所有音频帧中确定出的非静音帧的数量之差。4.根据权利要求1所述的音频处理方法,其特征在于,确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列,包括:将所述音频数据的输入预先训练的语音识别模型,根据所述语音识别模型的输出结果确定所述各个预估语料的概率和所述语料序列。5.一种音频处理装置,其特征在于,包括:语料确定模块,用于确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列;位置确定模块,用于确定目标语料在所述语料序列中的位置信息;音频帧确定模块,用于将各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧,确定为所述目标语料的初始音频帧;片段确定模块,用于从所述初始音频帧中确定对应于所述位置信息的目标音频帧,并将所述目标音频帧确定为包含所述目标语料的音频片段。6.根据权利要求5所述的音频处理装置,其特征在于,所述位置确定模块具体用于:在所述目标语料包含多个语料的情况下,将所述语料序列的所有音素中与所述目标语料包含的多个语料的排序规则相匹配的音素的位置信息,确定为所述目标语料在所述语料序列中的位置信息。7.根据权利要求5所述的音频处理装置,其特征在于,所述音频帧确定模块具体用于:从所述音频数据的所有音频帧中确定出非静音帧;将所述初始音频帧中帧坐标落入所述位置信息对应的非静音帧的帧坐标范围内的音频帧确定为所述目标音频帧;所述帧坐标范围的下限值为所述位置信息表征的帧坐标,所2CN114171006A权利要求书2/2页述帧坐标范围的上限值为所述位置信息表征的帧坐标与帧数差之和,所述帧数差为所述语料序列中语料的数量与从所述所有音频帧中确定出的非静音帧的数量之差。8.根据权利要求5所述的音频处理装置,其特征在于,所述语料确定模块具体用于:将所述音频数据的输入预先训练的语音识别模型,根据所述语音识别模型的输出结果确定所述各个预估语料的概率和所述语料序列。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,