音频处理方法、装置、电子设备、存储介质-豆柴文库

音频处理方法、装置、电子设备、存储介质.pdf

2023-07-24

10金币

459KB

13页

志信****pp

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共13页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114171006A(43)申请公布日2022.03.11(21)申请号202111443133.2(22)申请日2021.11.30(71)申请人展讯通信（上海）有限公司地址201203上海市浦东新区自由贸易试验区祖冲之路2288弄展讯中心1号楼(72)发明人姜双双戚萌陆成董斐(74)专利代理机构上海弼兴律师事务所31283代理人金学来罗朗(51)Int.Cl.G10L15/02(2006.01)G10L15/04(2013.01)G10L15/06(2013.01)G10L15/26(2006.01)权利要求书2页说明书8页附图2页(54)发明名称音频处理方法、装置、电子设备、存储介质(57)摘要本发明公开了音频处理方法、装置、电子设备、存储介质。该音频处理方法，包括：确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列；确定目标语料在所述语料序列中的位置信息；将各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧，确定为所述目标语料的初始音频帧；从所述初始音频帧中确定对应于所述位置信息的目标音频帧，并将所述目标音频帧确定为包含所述目标语料的音频片段。从而，能够准确定位目标语料在音频数据中的位置，准确确定音频数据中包含目标语料的音频片段，相较于人工确定目标语料的位置的方式，不仅节省了人力成本，还具有效率高、准确度高的优点。CN114171006ACN114171006A权利要求书1/2页1.一种音频处理方法，其特征在于，包括：确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列；确定目标语料在所述语料序列中的位置信息；将各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧，确定为所述目标语料的初始音频帧；从所述初始音频帧中确定对应于所述位置信息的目标音频帧，并将所述目标音频帧确定为包含所述目标语料的音频片段。2.根据权利要求1所述的音频处理方法，其特征在于，确定目标语料在所述语料序列中的位置信息，包括：在所述目标语料包含多个语料的情况下，将所述语料序列的所有音素中与所述目标语料包含的多个语料的排序规则相匹配的音素的位置信息，确定为所述目标语料在所述语料序列中的位置信息。3.根据权利要求1所述的音频处理方法，其特征在于，从所述初始音频帧中确定对应于所述位置信息的目标音频帧，包括：从所述音频数据的所有音频帧中确定出非静音帧；将所述初始音频帧中帧坐标落入所述位置信息对应的非静音帧的帧坐标范围内的音频帧确定为所述目标音频帧；所述帧坐标范围的下限值为所述位置信息表征的帧坐标，所述帧坐标范围的上限值为所述位置信息表征的帧坐标与帧数差之和，所述帧数差为所述语料序列中语料的数量与从所述所有音频帧中确定出的非静音帧的数量之差。4.根据权利要求1所述的音频处理方法，其特征在于，确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列，包括：将所述音频数据的输入预先训练的语音识别模型，根据所述语音识别模型的输出结果确定所述各个预估语料的概率和所述语料序列。5.一种音频处理装置，其特征在于，包括：语料确定模块，用于确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列；位置确定模块，用于确定目标语料在所述语料序列中的位置信息；音频帧确定模块，用于将各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧，确定为所述目标语料的初始音频帧；片段确定模块，用于从所述初始音频帧中确定对应于所述位置信息的目标音频帧，并将所述目标音频帧确定为包含所述目标语料的音频片段。6.根据权利要求5所述的音频处理装置，其特征在于，所述位置确定模块具体用于：在所述目标语料包含多个语料的情况下，将所述语料序列的所有音素中与所述目标语料包含的多个语料的排序规则相匹配的音素的位置信息，确定为所述目标语料在所述语料序列中的位置信息。7.根据权利要求5所述的音频处理装置，其特征在于，所述音频帧确定模块具体用于：从所述音频数据的所有音频帧中确定出非静音帧；将所述初始音频帧中帧坐标落入所述位置信息对应的非静音帧的帧坐标范围内的音频帧确定为所述目标音频帧；所述帧坐标范围的下限值为所述位置信息表征的帧坐标，所2CN114171006A权利要求书2/2页述帧坐标范围的上限值为所述位置信息表征的帧坐标与帧数差之和，所述帧数差为所述语料序列中语料的数量与从所述所有音频帧中确定出的非静音帧的数量之差。8.根据权利要求5所述的音频处理装置，其特征在于，所述语料确定模块具体用于：将所述音频数据的输入预先训练的语音识别模型，根据所述语音识别模型的输出结果确定所述各个预估语料的概率和所述语料序列。9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，

相关资料

音频处理方法、装置、存储介质及电子设备.pdf

本申请公开了一种音频处理方法，包括：获取歌曲音频以及该歌曲音频对应的伴奏音频；若该歌曲音频和该伴奏音频的采样率不一致，则对该歌曲音频和该伴奏音频的采样率进行预设处理，以使该歌曲音频和该伴奏音频的采样率一致；对采样率一致的该歌曲音频和该伴奏音频进行音频特征检测，得到音频特征检测结果；提取该歌曲音频的第一音频指纹信息以及该伴奏音频的第二音频指纹信息，并对该第一音频指纹信息和该第二音频指纹信息进行匹配，得到音频指纹信息匹配结果；根据该音频特征检测结果和该音频指纹信息匹配结果，输出该歌曲音频和该伴奏音频的时间偏移

2023-12-03

1.3MB

音频处理方法、装置、电子设备及存储介质.pdf

本发明实施例公开了一种音频处理的方法、装置、电子设备及存储介质，包括：提取目标音频的色度特征信息，所述色度特征信息包括多个音频段的特征向量，根据所述多个音频段的特征向量计算所述多个音频段之间的相似度，根据所述相似度从所述多个音频段中获取重复音频段集合，所述重复音频段集合包括多个重复音频段，根据所述重复音频段集合确定所述目标音频的副歌；可提高提取副歌的准确性。

2023-12-04

768KB

音频处理方法、装置、电子设备及存储介质.pdf

本发明实施例公开了一种音频处理的方法、装置、电子设备及存储介质，其中，方法包括：提取目标音频的音频指纹，获取倒排索引表，所述倒排索引表包括该目标音频及所述目标音频的指纹信息；根据所述目标音频的指纹信息获取所述目标音频的指纹信息代表度；若所述目标音频的指纹信息代表度低于预期，则从所述倒排索引表中删除所述目标音频的指纹信息。通过对倒排索引表中的数据进行筛选，可降低内存消耗，并提高检索效率。

2023-12-04

564KB

音频处理方法、装置、存储介质及电子设备.pdf

本申请公开了一种音频处理方法、装置、存储介质及电子设备。该音频处理方法包括：获取伴奏音频；提取该伴奏音频的音频特征，该音频特征包括谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA‑PLP特征、PLP特征以及频谱滚降特征中的至少一种；将该音频特征输入至预设模型，并获取该预设模型的输出结果，该预设模型为经过机器学习的模型；根据该输出结果，确定该伴奏音频的品质等级。本申请可以有效地确定伴奏的品质。

2023-06-25

1KB

音频处理方法、装置、电子设备及存储介质.pdf

本公开关于一种音频处理方法、装置、电子设备及存储介质，通过获取第一音频信号，对所述第一音频信号进行信号修正处理，得到修正处理后的中间音频信号，并对所述中间音频信号和伴奏音频信号进行内容分析处理，得到所述中间音频信号的演唱特征信息和所述伴奏音频信号的伴奏特征信息，从而根据所述演唱特征信息和所述伴奏特征信息，对所述中间音频信号和所述伴奏音频信号进行混音处理，以得到混音后的音频信号，通过对所述中间音频信号和所述伴奏音频信号进行混音处理能够美化人声，实现良好的混音效果，得到听感质量高的音乐，提高用户的演唱水效果，

2023-12-03

1.6MB