音频识别方法、装置、电子设备和存储介质-豆柴文库

音频识别方法、装置、电子设备和存储介质.pdf

2023-07-25

10金币

669KB

17页

猫巷****晓容

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共17页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113889146A(43)申请公布日2022.01.04(21)申请号202111109177.1(22)申请日2021.09.22(71)申请人北京小米移动软件有限公司地址100085北京市海淀区西二旗中路33号院6号楼8层018号申请人北京小米松果电子有限公司(72)发明人常智华段成真侯冉冉秦斌(74)专利代理机构北京博思佳知识产权代理有限公司11415代理人王茹(51)Int.Cl.G10L25/51(2013.01)G10L15/10(2006.01)G10L15/02(2006.01)G10L15/26(2006.01)权利要求书2页说明书10页附图4页(54)发明名称音频识别方法、装置、电子设备和存储介质(57)摘要本公开是关于一种音频识别方法、装置、电子设备和存储介质。该方法包括：获取查询内容；所述查询内容包括表征待识别音频的片段信息；从预设库中选取与所述查询内容对应的预设数量的候选音频；所述候选音频包括与所述片段信息相匹配的候选音频片段；将所述候选音频片段输入已训练的检测模型中，得到包含所述片段信息的目标片段信息和所述目标片段信息所在的目标音频。本实施例中可以利用部分片段信息即可从预设库中识别出相匹配的目标音频片段和目标音频，有利于提升识别效率，提高使用体验。CN113889146ACN113889146A权利要求书1/2页1.一种音频识别方法，其特征在于，所述方法包括：获取查询内容；所述查询内容包括表征待识别音频的片段信息；从预设库中选取与所述查询内容对应的预设数量的候选音频；所述候选音频包括与所述片段信息相匹配的候选音频片段；将所述候选音频片段输入已训练的检测模型中，得到包含所述片段信息的目标片段信息和所述目标片段信息所在的目标音频。2.根据权利要求1所述的方法，其特征在于，从预设库中选取与所述查询内容对应的预设数量的候选音频，包括：确定所述片段信息的语素与所述预设库中每个音频的文本信息的相似度；根据所述相似度从大到小对所述预设库中的音频进行排序，得到排序结果；基于所述排序结果确定排序位置靠前的预设数量个音频为所述候选音频，每个所述候选音频包括与所述片段信息的语素相匹配的至少一个音频片段；从每个所述候选音频的至少一个音频片段中获取包含连续匹配语素最长的音频片段，得到每个所述候选音频与所述片段信息相匹配的候选音频片段。3.根据权利要求1所述的方法，其特征在于，将所述候选音频片段输入已训练的检测模型中，得到包含所述片段信息的目标片段信息和所述目标片段信息所在的目标音频，包括：根据所述片段信息和所述候选音频片段获取每个所述候选音频对应的待检测向量；将每个所述候选音频对应的待检测向量输入到所述检测模型，得到所述检测模型输出的检测结果数据；根据所述检测结果数据获取包含所述片段信息的目标片段信息和所述目标片段信息所在的目标音频。4.根据权利要求3所述的方法，其特征在于，根据所述片段信息和所述候选音频片段获取每个所述候选音频对应的待检测向量，包括：将所述片段信息分别与每个候选音频的候选音频片段进行拼接，得到每个候选音频对应的待检测向量；其中，每个所述待检测向量至少包括第一标识符和第二标识符，所述第一标识符用于标识待检测向量的起始位置，所述第二标识符用于标识所述待检测向量的拼接位置和结束位置。5.根据权利要求3所述的方法，其特征在于，所述检测结果数据包括表示所述候选音频片段中每个语素分别位于起始位置和结束位置对应的第一概率数据和第二概率数据；根据所述检测结果数据获取包含所述片段信息的目标片段信息和所述目标片段信息所在的目标音频，包括：在所述起始位置小于所述结束位置的情况下，基于所述第一概率数据和所述第二概率数据的乘积从所述候选音频片段中确定出目标音频片段；将所述目标音频片段作为从所述查询内容中识别出的目标片段信息以及将所述目标片段信息所在音频作为目标音频。6.根据权利要求5所述的方法，其特征在于，基于所述第一概率数据和所述第二概率数据的乘积从所述候选音频片段中确定出目标音频片段，包括：当所述第一概率数据和所述第二概率数据的乘积最大时确定起始位置的起始语素和结束位置的结束语素；2CN113889146A权利要求书2/2页确定所述起始语素和所述结束语素之间的全部语素构成所述目标音频片段。7.根据权利要求1～6任一项所述的方法，其特征在于，所述待识别音频为歌曲，所述片段信息是指所述歌曲中的部分歌词。8.一种音频识别装置，其特征在于，所述装置包括：查询内容获取模块，被配置为执行获取查询内容；所述查询内容包括表征待识别音频的片段信息；候选音频获取模块，被配置为执行从预设库中选取与所述查询内容对应的预设数量的候选音频；所述候选音频包括与所述片段信息相匹配的

相关资料

音频识别方法、装置、电子设备和存储介质.pdf

本公开是关于一种音频识别方法、装置、电子设备和存储介质。该方法包括：获取查询内容；所述查询内容包括表征待识别音频的片段信息；从预设库中选取与所述查询内容对应的预设数量的候选音频；所述候选音频包括与所述片段信息相匹配的候选音频片段；将所述候选音频片段输入已训练的检测模型中，得到包含所述片段信息的目标片段信息和所述目标片段信息所在的目标音频。本实施例中可以利用部分片段信息即可从预设库中识别出相匹配的目标音频片段和目标音频，有利于提升识别效率，提高使用体验。

2023-07-25

669KB

音频识别方法、装置、电子设备和可读存储介质.pdf

本申请提供一种音频识别方法、装置、电子设备和可读存储介质，首先利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频，第一类噪声为非语音噪声。再利用预先构建的第二过滤模型对第一识别音频中的第二类噪声进行过滤得到第二识别音频，第一识别音频中包含目标语音和非目标语音，第二类噪声属于非目标语音。最后，将第二识别音频导入预先构建的识别模型，对第二识别音频中的目标语音进行处理得到对应的文本。该方案，预先对非语音噪声和属于非目标语音的噪声进行过滤处理，降低了语音识别的处理压力且排除各类噪声的干扰

2023-07-24

843KB

音频分类识别方法、装置、电子设备及存储介质.pdf

本公开关于一种音频分类识别方法、装置、电子设备及存储介质。该方法包括：通过获取待识别音频的音频特征；然后将音频特征输入目标卷积神经网络，对目标卷积神经网络的末端解码单元输出的第一特征，以及目标卷积神经网络中的至少一个编码单元输出的第二特征，进行特征融合处理，得到待识别音频的目标音频特征；最后基于目标音频特征，确定待识别音频对应的分类识别结果。本公开实现了将目标卷积神经网络与音频分类识别进行结合，将音频特征利用目标卷积神经网络进行特征提取并融合，得到了待识别音频的多层次的目标音频特征，并依据该目标音频特征对

2023-07-24

1.2MB

音频识别方法、装置及存储介质.pdf

本发明公开了一种音频识别方法、装置及存储介质，该方法包括：获取音频文件，以及音频文件对应的文本信息，文本信息包括多个字；依次将文本信息中的每个字，设置为目标字，并获取目标字对应的时间信息，时间信息包括目标字的开始时间和目标字的结束时间；根据目标字的开始时间，确定目标字对应的多个开始调整时间，并根据目标字的结束时间，确定目标字对应的多个结束调整时间；根据目标字的多个开始调整时间和目标字的多个结束调整时间，对音频文件进行识别，得到目标字的音高信息。该方案通过在根据目标字对应的开始时间和结束时间，确定多个开始调

2023-12-05

1.2MB

音频的识别方法、装置、可读介质和电子设备.pdf

本公开涉及一种音频的识别方法、装置、可读介质和电子设备，涉及电子信息处理技术领域，该方法包括：获取待识别音频，提取用于表征待识别音频的目标音频特征，目标音频特征的维度与待识别音频的时长正相关，利用预先训练的识别模型，根据目标音频特征确定指定维度的统计特征，并根据统计特征确定待识别音频包括的目标音频事件，识别模型根据预先采集的训练音频集训练得到，训练音频集包括不同时长的训练音频。本公开中识别模型对不同时长的音频进行特征提取，以得到指定维度的统计特征，从而识别音频中包括的音频事件，无需对音频进行截取或补齐操作

2023-07-24

705KB