音频识别方法、装置及存储介质-豆柴文库

音频识别方法、装置及存储介质.pdf

2023-12-05

10金币

1.2MB

27页

玉军****la

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共27页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108962286A(43)申请公布日2018.12.07(21)申请号201811198963.1(22)申请日2018.10.15(71)申请人腾讯音乐娱乐科技（深圳）有限公司地址518000广东省深圳市前海深港合作区前湾一路1号A栋201室(72)发明人黄安麒李深远董治(74)专利代理机构深圳翼盛智成知识产权事务所(普通合伙)44300代理人黄威(51)Int.Cl.G10L25/90(2013.01)权利要求书3页说明书16页附图7页(54)发明名称音频识别方法、装置及存储介质(57)摘要本发明公开了一种音频识别方法、装置及存储介质，该方法包括：获取音频文件，以及音频文件对应的文本信息，文本信息包括多个字；依次将文本信息中的每个字，设置为目标字，并获取目标字对应的时间信息，时间信息包括目标字的开始时间和目标字的结束时间；根据目标字的开始时间，确定目标字对应的多个开始调整时间，并根据目标字的结束时间，确定目标字对应的多个结束调整时间；根据目标字的多个开始调整时间和目标字的多个结束调整时间，对音频文件进行识别，得到目标字的音高信息。该方案通过在根据目标字对应的开始时间和结束时间，确定多个开始调整时间和多个结束调整时间后，再对音频文件进行识别，提高了音频识别的准确性。CN108962286ACN108962286A权利要求书1/3页1.一种音频识别方法，其特征在于，包括：获取音频文件，以及所述音频文件对应的文本信息，所述文本信息包括多个字；依次将所述文本信息中的每个字，设置为目标字，并获取所述目标字对应的时间信息，所述时间信息包括所述目标字的开始时间和所述目标字的结束时间；根据所述目标字的开始时间，确定所述目标字对应的多个开始调整时间，并根据所述目标字的结束时间，确定所述目标字对应的多个结束调整时间；根据所述目标字的多个开始调整时间和所述目标字的多个结束调整时间，对所述音频文件进行识别，得到所述目标字的音高信息。2.根据权利要求1所述的音频识别方法，其特征在于，所述根据所述目标字的开始时间，确定所述目标字对应的多个开始调整时间，并根据所述目标字的结束时间，确定所述目标字对应的多个结束调整时间步骤，包括：获取预设时间步长和预设最大误差值；根据所述目标字的开始时间、所述预设时间步长和所述预设最大误差值，确定所述目标字对应的多个开始调整时间，并根据所述目标字的结束时间、所述预设时间步长和所述预设最大误差值，确定所述目标字对应的多个结束调整时间。3.根据权利要求1所述的音频识别方法，其特征在于，所述根据所述目标字的多个开始调整时间和所述目标字的多个结束调整时间，对所述音频文件进行识别，得到所述目标字的音高信息步骤，包括：从所述目标字的多个开始调整时间中，选取目标开始调整时间，并从所述目标字的多个结束调整时间中，选取所述目标开始调整时间对应的目标结束调整时间，得到多个目标调整时间组；确定每一组所述目标调整时间组对应的音高概率集合，得到多个音高概率集合，所述音高概率集合包括音高、概率以及二者之间的关联关系；对所述多个音高概率集合进行评分，并选取评分最高的音高概率集合；根据所述评分最高的音高概率集合，生成所述目标字的音高信息。4.根据权利要求3所述的音频识别方法，其特征在于，所述对所述多个音高概率集合进行评分，并选取评分最高的音高概率集合步骤包括：根据所述目标字的开始时间、所述目标字的结束时间、所述目标字的多个目标调整时间组，得到多个误差减益值；依次将所述多个误差减益值，设置为目标误差减益值，并从所述目标误差减益值对应的音高概率集合中，获取第一概率和第二概率，其中所述第一概率为最大概率，所述第二概率为第二大概率；根据所述第一概率、所述第二概率以及所述目标误差减益值，对所述目标误差减益值对应的音高概率集合进行评分。5.根据权利要求3所述的音频识别方法，其特征在于，所述确定每一组所述目标调整时间组对应的音高概率集合，得到多个音高概率集合，所述音高概率集合包括音高、概率以及二者之间的关联关系步骤，包括：根据所述目标调整时间组，对所述音频文件划分多个采样区间；获取每一个采样区间对应的音高，以及所述音高对应的概率；2CN108962286A权利要求书2/3页将所述音高、所述概率以及二者之间的关联关系存储，生成所述目标调整时间组对应的音高概率集合。6.根据权利要求1所述的音频识别方法，其特征在于，所述目标字对应的时间信息还包括所述目标字的持续时长；所述依次将所述文本信息中的每个字，设置为目标字，并获取所述目标字对应的时间信息，所述时间信息包括所述目标字的开始时间和所述目标字的结束时间步骤之后，还包括：确定所述目标字的持续时长是否大于预设持续时长；如果大于预设持续时长，则对所

相关资料

音频识别方法、装置及存储介质.pdf

本发明公开了一种音频识别方法、装置及存储介质，该方法包括：获取音频文件，以及音频文件对应的文本信息，文本信息包括多个字；依次将文本信息中的每个字，设置为目标字，并获取目标字对应的时间信息，时间信息包括目标字的开始时间和目标字的结束时间；根据目标字的开始时间，确定目标字对应的多个开始调整时间，并根据目标字的结束时间，确定目标字对应的多个结束调整时间；根据目标字的多个开始调整时间和目标字的多个结束调整时间，对音频文件进行识别，得到目标字的音高信息。该方案通过在根据目标字对应的开始时间和结束时间，确定多个开始调

2023-12-05

1.2MB

音频识别方法、装置、终端、耳机及可读存储介质.pdf

本申请涉及一种音频识别方法、装置、终端、耳机及可读存储介质。该方法包括：接收音频识别请求，根据所述音频识别请求生成音频识别指令；执行所述音频识别指令，基于耳机上的电声换能器录制音频片段；向服务器发送携带所述音频片段的识别请求；所述识别请求用于指示所述服务器获取与所述音频片段相关的音频信息；接收所述服务器返回的识别结果，并根据所述识别结果进行信息播放。通过上述方法，可以通过耳机实现识别音频片段的过程，并且可以将识别结果直接通过耳机播放出来，给用户带来更便捷的听觉体验，方便用户随时收录想要收听的音乐。

2023-12-05

678KB

音频识别方法、装置、电子设备和存储介质.pdf

本公开是关于一种音频识别方法、装置、电子设备和存储介质。该方法包括：获取查询内容；所述查询内容包括表征待识别音频的片段信息；从预设库中选取与所述查询内容对应的预设数量的候选音频；所述候选音频包括与所述片段信息相匹配的候选音频片段；将所述候选音频片段输入已训练的检测模型中，得到包含所述片段信息的目标片段信息和所述目标片段信息所在的目标音频。本实施例中可以利用部分片段信息即可从预设库中识别出相匹配的目标音频片段和目标音频，有利于提升识别效率，提高使用体验。

2023-07-25

669KB

基于机器学习的音频识别方法及装置、设备、存储介质.pdf

本申请涉及人工智能，提供一种基于机器学习的音频识别方法及装置、设备、存储介质，该方法包括：获取生物发出的无语义的第一音频样本，将第一音频样本输入意图识别模型，以对第一音频样本的意图进行预测，得到第一意图数据；并对第一音频样本的音色进行识别，得到第一音色数据；基于第一意图数据和第一音色数据，确定第一目标音频；基于第一目标音频和第一音频样本的比对结果对意图识别模型进行训练，以得到训练完成的意图识别模型，并基于训练完成的意图识别模型，对待识别音频的意图进行识别。本申请实施例的技术方案能够降低音色等参数对意图识别

2023-07-24

883KB

音频文件的音高识别方法、装置以及存储介质.pdf

本发明实施例公开了一种音频文件的音高识别方法、装置以及存储介质；本发明实施例通过获取音频文件，音频文件包括音频数据，然后，从音频文本中提取预设时间点对应的文字，得到多个音频单字，紧接着，获取音频单字的在音频文本中的音高独立概率，再然后，根据多个音频标签，获取音频单字在所述音频文本中的音高变化概率，最后，对音高独立概率以及音高变化概率进行处理，得到音频文件的音高结果。相对于现有的方案而言，可以避免识别的音高存在与音频文本不对应或音高漏识别的情况发生，因此，可以提高音高识别结果的准确率。

2023-12-04

578KB