预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109903773A(43)申请公布日2019.06.18(21)申请号201910190418.6(22)申请日2019.03.13(71)申请人腾讯音乐娱乐科技(深圳)有限公司地址518000广东省深圳市前海深港合作区前湾一路1号A栋201室(72)发明人王征韬(74)专利代理机构深圳翼盛智成知识产权事务所(普通合伙)44300代理人黄威(51)Int.Cl.G10L17/04(2013.01)G10L17/00(2013.01)G10L25/18(2013.01)G10L17/02(2013.01)权利要求书2页说明书13页附图5页(54)发明名称音频处理方法、装置及存储介质(57)摘要本申请公开了一种音频处理方法、装置及存储介质,所述方法包括:获取训练样本,其中,所述训练样本包含有与多个歌手对应的多个演唱片段组,每一演唱片段组分别对应同一歌手的多个演唱片段,并对所述训练样本进行特征提取,以提取出所述训练样本的音频特征,然后将所述训练样本的音频特征输入参考模型中进行学习训练,以生成处理模型,并基于所述处理模型对待测音频进行音频处理,以获取所述待测音频的音色特征,可以在不要求干声的情况下,有效识别出音色特征,提升了音色特征识别的高效性、鲁棒性及准确性。CN109903773ACN109903773A权利要求书1/2页1.一种音频处理方法,其特征在于,所述方法包括:获取训练样本,其中,所述训练样本包含有与多个歌手对应的多个演唱片段组,每一演唱片段组分别对应同一歌手的多个演唱片段;对所述训练样本进行特征提取,以提取出所述训练样本的音频特征;将所述训练样本的音频特征输入参考模型中进行学习训练,以生成处理模型;基于所述处理模型对待测音频进行音频处理,以获取所述待测音频的音色特征。2.如权利要求1所述的音频处理方法,其特征在于,所述获取训练样本,包括:选取多个歌手的歌曲组,其中,每个歌手对应的歌曲组包括多个歌曲,所述歌曲为单人演唱歌曲;获取每一所述歌曲组的多个歌曲对应的带时间戳的歌词,基于所述歌词的时间戳截取每一所述歌曲组的多个歌曲对应的演唱片段,以获取包含有与多个歌手对应的多个演唱片段组的训练样本,其中,每一所述演唱片段组分别对应同一歌手的多个演唱片段。3.如权利要求2所述的音频处理方法,其特征在于,所述基于所述歌词的时间戳截取每一所述歌曲组的多首歌曲对应的演唱片段,还包括:对所述演唱片段进行掐头去尾处理。4.如权利要求2所述的音频处理方法,其特征在于,所述对所述训练样本进行特征提取,以提取出所述训练样本的音频特征,包括:将所述训练样本中每一所述演唱片段的时域信号转换为频域信号,并提取出所述频域信号的频谱特征,以获取所述训练样本的音频特征。5.如权利要求4所述的音频处理方法,其特征在于,所述将所述训练样本中每一所述演唱片段的时域信号转换为频域信号,并提取出所述频域信号的频谱特征,以获取所述训练样本的音频特征,包括:对所述训练样本中每一所述演唱片段进行短时傅里叶变换,并对所述短时傅里叶变换后得到的频域信号进行梅尔尺度变换,以获取与每一所述演唱片段对应的梅尔频谱特征。6.如权利要求1至5任一项所述的音频处理方法,其特征在于,所述将所述训练样本的音频特征输入参考模型中进行学习训练,以生成处理模型,包括:将所述训练样本的音频特征经过多个卷积层和池化层进行逐层抽象处理;在每一所述池化层上分别接入一全连接层,并将每一所述池化层处理后的音频数据输入对应的全连接层进行处理,以得到每一所述全连接层的输出项;对每一所述全连接层的输出项进行导数监督模型训练,以生成处理模型。7.如权利要求6所述的音频处理方法,其特征在于,所述将所述训练样本的音频特征经过多个卷积层和池化层进行逐层抽象处理,还包括:通过每一所述池化层对所述训练样本的音频特征进行池化处理和编码处理,以得到定长的音频数据。8.如权利要求6所述的音频处理方法,其特征在于,所述对每一所述全连接层的输出项进行导数监督模型训练,以生成处理模型,包括:基于三元组损失函数对每一所述全连接层的输出项进行导数监督模型训练,以得到训练后的所述参考模型的优化参数;根据所述优化参数生成所述处理模型。2CN109903773A权利要求书2/2页9.一种音频处理装置,其特征在于,所述装置包括:获取模块,用于获取训练样本,其中,所述训练样本包含有与多个歌手对应的多个演唱片段组,每一演唱片段组分别对应同一歌手的多个演唱片段;提取模块,用于对所述训练样本进行特征提取,以提取出所述训练样本的音频特征;训练模块,用于将所述训练样本的音频特征输入参考模型中进行学习训练,以生成处理模型;处理模块,用于基于所述处理模型对待测音频进行音频处理,以获取所述待测音