预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共65页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114067828A(43)申请公布日2022.02.18(21)申请号202010768901.0(22)申请日2020.08.03(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人王宪亮王凯黄智颖索宏彬(74)专利代理机构北京润泽恒知识产权代理有限公司11319代理人赵娟(51)Int.Cl.G10L25/03(2013.01)G10L25/51(2013.01)G10L25/78(2013.01)G10L25/81(2013.01)权利要求书8页说明书41页附图15页(54)发明名称声学事件检测方法、装置、设备和存储介质(57)摘要本申请实施例提供了一种声学事件检测方法、装置、设备和存储介质,以提高声学事件检测的准确性。所述方法包括:获取待检测音频数据;从所述待检测音频数据中,提取目标音频片段的第一声学特征,所述目标音频片段包括多个音频帧;确定多个批次的第一声学特征对应声学事件的概率信息;其中,一个批次的第一声学特征包括具有预设时序关系的多个音频帧的第一声学特征;依据所述多个批次的第一声学特征对应声学事件的概率信息,确定所述目标音频片段中目标声学事件的概率信息;进而本申请实施例通过利用了待检测音频数据中所包含的多个音频帧的时序信息进行声学事件检测,提高声音事件检测的准确性。CN114067828ACN114067828A权利要求书1/8页1.一种声学事件检测方法,其特征在于,所述方法包括:获取待检测音频数据;从所述待检测音频数据中,提取目标音频片段的第一声学特征,所述目标音频片段包括多个音频帧;确定多个批次的第一声学特征对应声学事件的概率信息;其中,一个批次的第一声学特征包括具有预设时序关系的多个音频帧的第一声学特征;依据所述多个批次的第一声学特征对应声学事件的概率信息,确定所述目标音频片段中目标声学事件的概率信息。2.根据权利要求1所述的方法,其特征在于,所述从所述待检测音频数据中,提取目标音频片段的第一声学特征,包括:提取所述待检测音频数据的第一声学特征;采用长度为预设时长的窗按照设定滑动步长,在所述待检测音频数据的第一声学特征上滑动,截取得到目标音频片段的第一声学特征。3.根据权利要求1所述的方法,其特征在于,所述确定多个批次的第一声学特征对应声学事件的概率信息,包括:将所述第一声学特征输入至声学事件检测器,由所述声学事件检测器输出多个批次的第一声学特征对应声学事件的概率信息。4.根据权利要求3所述的方法,其特征在于,所述由所述声学事件检测器输出多个批次的第一声学特征对应声学事件的概率信息,包括:由所述声学事件检测器根据预设时序关系将所述多个音频帧的第一声学特征划分为多个批次的第一声学特征,以及分别确定多个批次的第一声学特征对应声学事件的概率信息并输出。5.根据权利要求4所述的方法,其特征在于,所述根据预设时序关系将所述多个音频帧的第一声学特征划分为多个批次的第一声学特征,包括:通过根据预设时序关系对所述多个音频帧的第一声学特征进行时间池化,将所述多个音频帧的第一声学特征划分为多个批次的第一声学特征。6.根据权利要求3所述的方法,其特征在于,所述将所述第一声学特征输入至声学事件检测器,包括:基于所述多个音频帧的第一声学特征,分别确定所述多个音频帧对应的第二声学特征;将所述第二声学特征输入至所述声学事件检测器。7.根据权利要求6所述的方法,其特征在于,所述基于所述多个音频帧的第一声学特征,分别确定所述多个音频帧对应的第二声学特征,包括:从所述多个音频帧的第一声学特征中,选取目标音频帧的第一声学特征;将目标音频帧的第一声学特征,与所述目标音频帧的前N个音频帧的第一声学特征和/或所述目标音频帧的后M个音频帧的第一声学特征拼接,得到所述目标音频帧对应的第三声学特征;基于所述目标音频帧对应的第三声学特征,确定所述目标视频帧对应的第二声学特征。2CN114067828A权利要求书2/8页8.根据权利要求7所述的方法,其特征在于,所述基于所述目标音频帧对应的第三声学特征,确定所述目标视频帧对应的第二声学特征,包括:将所述目标音频帧对应的第三声学特征,确定为所述目标视频帧对应的第二声学特征;和/或,对所述目标音频帧对应的第三声学特征进行差分处理,得到所述目标音频帧对应的多个第四声学特征;将所述目标音频帧对应的第三声学特征和多个第四声学特征,作为所述目标视频帧对应的第二声学特征;和/或,对所述目标音频帧对应的第三声学特征进行规整,得到所述目标音频帧对应的第五声学特征,将所述目标音频帧对应的第三声学特征和第五声学特征,作为所述目标视频帧对应的第二声学特征。9.根据权利要求1所述的方法,其特征在于,所述声学事