预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114186094A(43)申请公布日2022.03.15(21)申请号202111282304.8(22)申请日2021.11.01(71)申请人深圳市豪恩声学股份有限公司地址518000广东省深圳市坪山区规划四路6号(72)发明人高玉梅刘涛朱彪王丽(74)专利代理机构深圳中一联合知识产权代理有限公司44414代理人梁姗(51)Int.Cl.G06F16/65(2019.01)G06K9/00(2022.01)G06K9/62(2022.01)权利要求书2页说明书14页附图5页(54)发明名称音频场景分类方法、装置、终端设备及存储介质(57)摘要本申请适用于计算机技术领域,提供了一种音频场景分类方法、装置、终端设备及存储介质,该方法包括:采集目标场景下第一预设时长的音频数据,得到第一音频片段;提取第一音频片段的第一特征信息和第二特征信息,其中,第一特征信息表示以时间为基准的频率特征信息,第二特征信息表示以频率为基准的时间特征信息;按照预设规则分别将第一特征信息划分为N个第一特征片段、将第二特征信息划分为N个第二特征片段,得到N个特征组,其中,每个特征组中包括一个第一特征片段和一个第二特征片段;计算N个特征组各自的融合特征;根据N个特征组各自的融合特征,确定第一音频片段的第一场景分类结果。通过上述方法,可以提升音频场景分类结果的准确率。CN114186094ACN114186094A权利要求书1/2页1.一种音频场景分类方法,其特征在于,包括:采集目标场景下第一预设时长的音频数据,得到第一音频片段;提取所述第一音频片段的第一特征信息和第二特征信息,其中,所述第一特征信息表示以时间为基准的频率特征信息,所述第二特征信息表示以频率为基准的时间特征信息;按照预设规则分别将所述第一特征信息划分为N个第一特征片段、将所述第二特征信息划分为N个第二特征片段,N为大于1的正整数;按照所述预设规则将所述N个第一特征片段和所述N个第二特征片段划分为N个特征组,其中,每个所述特征组中包括一个第一特征片段和一个第二特征片段;计算所述N个特征组各自的融合特征;根据所述N个特征组各自的融合特征,确定所述第一音频片段的第一场景分类结果。2.如权利要求1所述的音频场景分类方法,其特征在于,所述采集目标场景下第一预设时长的音频数据,得到第一音频片段,包括:采集所述目标场景下第一预设时长的原始音频;在所述原始音频的音量大于预设阈值的情况下,判断所述原始音频中是否存在目标声音;若所述原始音频中存在目标声音,则滤除所述原始音频中的所述目标声音,得到所述第一音频片段;若所述原始音频中不存在目标声音,则将所述原始音频确定为所述第一音频片段。3.如权利要求1所述的音频场景分类方法,其特征在于,所述计算所述N个特征组各自的融合特征,包括:将所述N个特征组的每个特征组中的第一特征片段,输入到频谱特征信息提取模型,获得每个特征组中的第一特征片段的频域特征;将所述N个特征组的每个特征组中的第二特征片段,输入到时序特征信息提取模型,获得每个特征组中的第二特征片段的时域特征;对所述N个特征组各自的第一特征片段的频域特征和第二特征片段的时域特征进行融合处理,得到所述N个特征组各自的融合特征。4.如权利要求3所述的音频场景分类方法,其特征在于,所述频谱特征信息提取模型由深度可分离卷积神经网络训练得到;所述时序特征信息提取模型由循环神经网络训练得到。5.如权利要求3所述的音频场景分类方法,其特征在于,所述对所述N个特征组各自的第一特征片段的频域特征和第二特征片段的时域特征进行融合处理,得到所述N个特征组各自的融合特征,包括:按照预设权值将所述N个特征组的每个特征组中的第一特征片段的频域特征和第二特征片段的时域特征进行向量拼接,得到所述N个特征组各自的融合特征。6.如权利要求1所述的音频场景分类方法,其特征在于,所述根据所述N个特征组各自的融合特征,确定所述第一音频片段的第一场景分类结果,包括:将所述N个特征组各自的融合特征分别输入训练后的分类模型,得到N个概率矩阵;计算所述N个概率矩阵的均值,得到最终概率矩阵;将所述最终概率矩阵中数值最大的元素所属的类别标签确定为所述第一音频片段的2CN114186094A权利要求书2/2页第一场景分类结果。7.如权利要求1所述的音频场景分类方法,其特征在于,根据所述N个特征组各自的融合特征,确定所述第一音频片段的第一场景分类结果之后,所述方法还包括:继续采集所述目标场景下第二预设时长的音频数据,得到第二音频片段;根据所述第二音频片段的融合特征,确定所述第二音频片段的第二场景分类结果;根据所述第一音频片段的第一场景分类结果和所述第二音频片段的第二场景分类结果,确定所述目标场景的