基于机器学习的音频识别方法及装置、设备、存储介质-豆柴文库

基于机器学习的音频识别方法及装置、设备、存储介质.pdf

2023-07-24

10金币

883KB

23页

一只****签网

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共23页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113903356A(43)申请公布日2022.01.07(21)申请号202111148995.2(22)申请日2021.09.28(71)申请人平安科技（深圳）有限公司地址518000广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼(72)发明人张旭龙王健宗(74)专利代理机构深圳市隆天联鼎知识产权代理有限公司44232代理人徐明霞(51)Int.Cl.G10L25/51(2013.01)G10L25/30(2013.01)权利要求书2页说明书16页附图4页(54)发明名称基于机器学习的音频识别方法及装置、设备、存储介质(57)摘要本申请涉及人工智能，提供一种基于机器学习的音频识别方法及装置、设备、存储介质，该方法包括：获取生物发出的无语义的第一音频样本，将第一音频样本输入意图识别模型，以对第一音频样本的意图进行预测，得到第一意图数据；并对第一音频样本的音色进行识别，得到第一音色数据；基于第一意图数据和第一音色数据，确定第一目标音频；基于第一目标音频和第一音频样本的比对结果对意图识别模型进行训练，以得到训练完成的意图识别模型，并基于训练完成的意图识别模型，对待识别音频的意图进行识别。本申请实施例的技术方案能够降低音色等参数对意图识别的影响，提升意图识别的准确性。CN113903356ACN113903356A权利要求书1/2页1.一种基于机器学习的音频识别方法，其特征在于，所述方法包括：获取生物发出的无语义的第一音频样本；将所述第一音频样本输入意图识别模型，以对所述第一音频样本的意图进行预测，得到第一意图数据；并对所述第一音频样本的音色进行识别，得到第一音色数据；其中，所述意图识别模型为基于机器学习建立的模型；基于所述第一意图数据和所述第一音色数据，确定第一目标音频；基于所述第一目标音频和所述第一音频样本的比对结果对所述意图识别模型进行训练，以得到训练完成的意图识别模型，并基于训练完成的意图识别模型，对待识别音频的意图进行识别。2.如权利要求1所述的方法，其特征在于，所述将所述第一音频样本输入意图识别模型，以对所述第一音频样本的意图进行预测，得到第一意图数据，包括：将所述第一音频样本输入意图识别模型，以使所述意图识别模型对所述第一音频样本的意图进行预测；在所述意图识别模型的预测过程中，获取所述意图识别模型的隐藏层输出的数据；将获取到的数据作为所述第一意图数据。3.如权利要求1所述的方法，其特征在于，所述基于所述第一意图数据和所述第一音色数据，确定第一目标音频，包括：获取第二意图数据和第二音色数据；基于所述第一意图数据和所述第二音色数据生成第一音频，并基于所述第二意图数据和所述第一音色数据生成第二音频；将所述第一音频输入所述意图识别模型，以对所述第一音频的意图进行预测，得到第三意图数据；并对所述第二音频的音色进行识别，得到第三音色数据；基于所述第三意图数据和所述第三音色数据生成所述第一目标音频。4.如权利要求3所述的方法，其特征在于，所述获取第二意图数据和第二音色数据，包括：获取生物发出的无语义的第二音频样本；将所述第二音频样本输入所述意图识别模型，以对所述第二音频样本的意图进行预测，得到第二意图数据；并对所述第二音频样本的音色进行识别，得到第二音色数据；在所述基于所述第一意图数据和所述第二音色数据生成第一音频，并基于所述第二意图数据和所述第一音色数据生成第二音频之后，得到训练完成的意图识别模型之前，所述方法还包括：将所述第二音频输入所述意图识别模型，以对所述第二音频的意图进行预测，得到第四意图数据；并对所述第一音频的音色进行识别，得到第四音色数据；基于所述第四意图数据和所述第四音色数据生成第二目标音频；基于所述第二目标音频和所述第二音频样本的比对结果对所述意图识别模型进行训练。5.如权利要求3所述的方法，其特征在于，所述第一音频由音频生成模型基于所述第一意图数据和所述第二音色数据生成；所述第一音色数据由音色识别模型对第一音频样本进行识别得到；所述音频生成模型和所述音色识别模型为基于机器学习建立的模型；2CN113903356A权利要求书2/2页在所述基于所述第三意图数据和所述第三音色数据生成所述第一目标音频之后，所述方法还包括：基于所述第一目标音频和所述第一音频样本的比对结果对所述音频生成模型和所述音色识别模型进行训练。6.如权利要求1所述的方法，其特征在于，在得到训练完成的意图识别模型之前，所述方法还包括：获取生物发出的无语义的第三音频样本和所述第三音频样本的预设意图；将所述第三音频样本输入所述意图识别模型，以对所述第三音频样本的意图进行预测，得到所述第三音频样本对应的意图数据；基于所述第三音频样本对应的意图数据和所述预设意

相关资料

基于机器学习的音频识别方法及装置、设备、存储介质.pdf

本申请涉及人工智能，提供一种基于机器学习的音频识别方法及装置、设备、存储介质，该方法包括：获取生物发出的无语义的第一音频样本，将第一音频样本输入意图识别模型，以对第一音频样本的意图进行预测，得到第一意图数据；并对第一音频样本的音色进行识别，得到第一音色数据；基于第一意图数据和第一音色数据，确定第一目标音频；基于第一目标音频和第一音频样本的比对结果对意图识别模型进行训练，以得到训练完成的意图识别模型，并基于训练完成的意图识别模型，对待识别音频的意图进行识别。本申请实施例的技术方案能够降低音色等参数对意图识别

2023-07-24

883KB

音频识别方法、装置及存储介质.pdf

本发明公开了一种音频识别方法、装置及存储介质，该方法包括：获取音频文件，以及音频文件对应的文本信息，文本信息包括多个字；依次将文本信息中的每个字，设置为目标字，并获取目标字对应的时间信息，时间信息包括目标字的开始时间和目标字的结束时间；根据目标字的开始时间，确定目标字对应的多个开始调整时间，并根据目标字的结束时间，确定目标字对应的多个结束调整时间；根据目标字的多个开始调整时间和目标字的多个结束调整时间，对音频文件进行识别，得到目标字的音高信息。该方案通过在根据目标字对应的开始时间和结束时间，确定多个开始调

2023-12-05

1.2MB

基于机器学习的多意图识别方法、设备及可读存储介质.pdf

本发明涉及一种人工智能技术领域，提供一种基于机器学习的多意图识别方法、装置、电子设备及计算机可读存储介质，其中方法包括：通过语料生成模型对包含多个意图的对话进行语料标注，获取所述对话中每个意图相对应的意图语料；通过所述意图语料训练预先构建的多意图识别模型；通过训练后的多意图识别模型识别人机对话的客户端表达语句中的多个意图。本发明主要目的在于通过transformer和rnn构成的多意图识别模型，准确识别客户的多个意图，从而解决现有意图识别过程中不能准确同时识别多个意图的问题。

2023-07-25

658KB

音频分类识别方法、装置、电子设备及存储介质.pdf

本公开关于一种音频分类识别方法、装置、电子设备及存储介质。该方法包括：通过获取待识别音频的音频特征；然后将音频特征输入目标卷积神经网络，对目标卷积神经网络的末端解码单元输出的第一特征，以及目标卷积神经网络中的至少一个编码单元输出的第二特征，进行特征融合处理，得到待识别音频的目标音频特征；最后基于目标音频特征，确定待识别音频对应的分类识别结果。本公开实现了将目标卷积神经网络与音频分类识别进行结合，将音频特征利用目标卷积神经网络进行特征提取并融合，得到了待识别音频的多层次的目标音频特征，并依据该目标音频特征对

2023-07-24

1.2MB

音频识别方法、装置、电子设备和存储介质.pdf

本公开是关于一种音频识别方法、装置、电子设备和存储介质。该方法包括：获取查询内容；所述查询内容包括表征待识别音频的片段信息；从预设库中选取与所述查询内容对应的预设数量的候选音频；所述候选音频包括与所述片段信息相匹配的候选音频片段；将所述候选音频片段输入已训练的检测模型中，得到包含所述片段信息的目标片段信息和所述目标片段信息所在的目标音频。本实施例中可以利用部分片段信息即可从预设库中识别出相匹配的目标音频片段和目标音频，有利于提升识别效率，提高使用体验。

2023-07-25

669KB