预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113987258A(43)申请公布日2022.01.28(21)申请号202111327471.X(22)申请日2021.11.10(71)申请人北京有竹居网络技术有限公司地址101299北京市平谷区林荫北街13号信息大厦802室(72)发明人何珂鑫贾少勇何怡马泽君(74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙)11447代理人魏云鹿(51)Int.Cl.G06F16/65(2019.01)G06K9/62(2022.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书13页附图5页(54)发明名称音频的识别方法、装置、可读介质和电子设备(57)摘要本公开涉及一种音频的识别方法、装置、可读介质和电子设备,涉及电子信息处理技术领域,该方法包括:获取待识别音频,提取用于表征待识别音频的目标音频特征,目标音频特征的维度与待识别音频的时长正相关,利用预先训练的识别模型,根据目标音频特征确定指定维度的统计特征,并根据统计特征确定待识别音频包括的目标音频事件,识别模型根据预先采集的训练音频集训练得到,训练音频集包括不同时长的训练音频。本公开中识别模型对不同时长的音频进行特征提取,以得到指定维度的统计特征,从而识别音频中包括的音频事件,无需对音频进行截取或补齐操作,能够保留音频中完整的信息,提高识别的准确度。CN113987258ACN113987258A权利要求书1/2页1.一种音频的识别方法,其特征在于,所述方法包括:获取待识别音频;提取用于表征所述待识别音频的目标音频特征,所述目标音频特征的维度与所述待识别音频的时长正相关;利用预先训练的识别模型,根据所述目标音频特征确定指定维度的统计特征,并根据所述统计特征确定所述待识别音频包括的目标音频事件,所述识别模型根据预先采集的训练音频集训练得到,所述训练音频集包括不同时长的训练音频。2.根据权利要求1所述的方法,其特征在于,所述识别模型包括:依次连接的多个卷积层、统计池化层和分类层;所述利用预先训练的识别模型,根据所述目标音频特征确定指定维度的统计特征,并根据所述统计特征确定所述待识别音频包括的目标音频事件,包括:将所述目标音频特征输入第一个所述卷积层,以得到最后一个所述卷积层输出的所述待识别音频的高层特征,所述高层特征的维度与所述目标音频特征的维度正相关;将所述高层特征输入所述统计池化层,以得到所述统计池化层输出的所述统计特征;将所述统计特征输入所述分类层,以根据所述分类层的输出确定所述目标音频事件。3.根据权利要求2所述的方法,其特征在于,所述统计池化层包括多个统计模块,每个统计模块对应一种统计处理;所述将所述高层特征输入所述统计池化层,以得到所述统计池化层输出的所述统计特征,包括:将所述高层特征分别输入每个所述统计模块,以得到该统计模块输出的统计结果,所述统计结果为该统计模块对所述高层特征进行对应的统计处理的结果;将多个所述统计模块输出的所述统计结果进行拼接,以得到所述统计特征,所述指定维度根据所述统计模块的数量确定。4.根据权利要求1‑3中任一项所述的方法,其特征在于,所述识别模型是通过以下方式训练得到的:获取样本输入集和所述样本输出集,所述样本输入集包括多个样本输入,所述样本输入包括所述训练音频集中的一个所述训练音频,所述样本输出集中包括与每个所述样本输入对应的样本输出,每个所述样本输出包括对应的所述训练音频包括的真实音频事件;将所述样本输入集作为所述识别模型的输入,将所述样本输出集作为所述识别模型的输出,以训练所述识别模型。5.根据权利要求4所述的方法,其特征在于,所述将所述样本输入集作为所述识别模型的输入,将所述样本输出集作为所述识别模型的输出,以训练所述识别模型,包括:将当前批次中的任一所述样本输入作为所述识别模型的输入,以得到所述识别模型的输出;通过时长统计模型,确定当前批次中与该样本输入匹配的同类样本输入,并确定全部所述同类样本输入的统计时长,所述同类样本输入对应的样本输出,与该样本输入对应的样本输出相同;根据所述识别模型的输出、该样本输入对应的样本输出,以及所述统计时长,确定识别损失;以降低所述识别损失为目标,利用反向传播算法训练所述识别模型。2CN113987258A权利要求书2/2页6.根据权利要求5所述的方法,其特征在于,所述根据所述识别模型的输出、该样本输入对应的样本输出,以及所述统计时长,确定识别损失,包括:根据所述统计时长和总时长的比值,确定该样本输入对应的时长系数,所述时长系数与所述比值负相关,所述总时长为所述样本输入集中每个所述样本输入的时长的总和;根据所述识别模型的输出、该样本输入对应的样本输出和时长系数的乘积,确定