预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共54页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号(10)申请公布号CNCN104217729104217729A(43)申请公布日2014.12.17(21)申请号201310214901.6(22)申请日2013.05.31(71)申请人杜比实验室特许公司地址美国加利福尼亚州(72)发明人王珺芦烈(74)专利代理机构北京集佳知识产权代理有限公司11227代理人李春晖李德山(51)Int.Cl.G10L21/0272(2013.01)G10L25/90(2013.01)权权利要求书6页利要求书6页说明书32页说明书32页附图15页附图15页(54)发明名称音频处理方法和音频处理装置以及训练方法(57)摘要本申请描述了音频处理方法和音频处理装置以及训练方法。根据本申请的实施方式,重音识别器用于从多个音频帧中识别重音帧,产生包括针对多个音频帧的重音和/或非重音判定的概率得分的重音序列。然后速度估计器用于基于重音序列来估计多个音频帧的速度序列。所述实施方式可以很好地适应于速度的变化,并且可以进一步用于正确地跟踪拍子。CN104217729ACN104279ACN104217729A权利要求书1/6页1.一种音频处理装置,包括:重音识别器,用于从多个音频帧中识别重音帧,产生重音序列,所述重音序列包括针对所述多个音频帧的重音和/或非重音判定的概率得分;以及速度估计器,用于基于所述重音序列来估计所述多个音频帧的速度序列。2.根据权利要求1所述的音频处理装置,其中,所述重音识别器包括:第一特征提取器,用于从每个音频帧中提取至少一个冲击显著性特征,所述至少一个冲击显著性特征表示至少一个基本冲击声音分量在所述音频帧中占的比例;以及分类器,用于至少基于所述至少一个冲击显著性特征来对所述多个音频帧进行分类。3.根据权利要求2所述的音频处理装置,其中,所述第一特征提取器被配置成使用分解算法来估计每个音频帧的所述至少一个冲击显著性特征:将所述音频帧分解成至少一个基本冲击声音分量,产生所述至少一个基本冲击声音分量的混合因数的矩阵,所述混合因数整体地或单独地作为所述至少一个冲击显著性特征的基础。4.根据权利要求2所述的音频处理装置,其中,所述第一特征提取器被配置成使用分解算法来估计所述至少一个冲击显著性特征:将每个音频帧分解成至少一个基本冲击声音分量和至少一个基本非冲击声音分量,产生所述至少一个基本冲击声音分量和所述至少一个基本非冲击声音分量的混合因数的矩阵,所述混合因数整体地或单独地作为所述至少一个冲击显著性特征的基础。5.根据权利要求2所述的音频处理装置,其中,所述第一特征提取器还包括归一化单元,用于使用所述音频帧的能量对每个音频帧的所述至少一个冲击显著性特征进行归一化。6.根据权利要求1所述的音频处理装置,其中,所述重音识别器包括:第二特征提取器,用于从每个音频帧中提取至少一个相对强度特征,所述至少一个相对强度特征表示所述音频帧相对于至少一个相邻音频帧的强度变化;以及分类器,用于至少基于所述至少一个相对强度特征来对所述多个音频帧进行分类。7.根据权利要求6所述的音频处理装置,其中,所述第二特征提取器被配置成计算每个音频帧的谱与至少一个相邻音频帧的谱之间的差,作为每个音频帧的所述至少一个相对强度特征。8.根据权利要求7所述的音频处理装置,其中,所述第二特征提取器被配置成计算每个音频帧的对数谱与至少一个相邻音频帧的对数谱之间的差,作为每个音频帧的所述至少一个相对强度特征。9.根据权利要求6所述的音频处理装置,其中,所述重音识别器包括:第一特征提取器,用于从每个音频帧中提取至少一个冲击显著性特征,所述至少一个冲击显著性特征表示至少一个基本冲击声音分量在所述音频帧中占的比例;第二特征提取器,用于从每个音频帧中提取至少一个相对强度特征,所述至少一个相对强度特征表示所述音频帧相对于至少一个相邻音频帧的强度变化;以及分类器,用于至少基于所述至少一个冲击显著性特征和所述至少一个相对强度特征中的一个来对所述多个音频帧进行分类。10.根据权利要求9所述的音频处理装置,其中,所述重音识别器还包括:至少一个附加特征提取器,用于提取至少一个附加特征;以及子集选择器,用于从所述至少一个附加特2CN104217729A权利要求书2/6页征、所述至少一个冲击显著性特征和所述至少一个相对强度特征中选择特征子集,并且所述分类器被配置成通过使用所述特征子集来识别重音帧。11.根据权利要求2至10中的一项所述的音频处理装置,其中,所述分类器包括双向长短时存储器BLSTM。12.根据权利要求1至10中的一项所述的音频处理装置,其中,所述速度估计器包括动态规划单元,所述动态规划单元将所述重音序列作为输入并且通过使沿着时间线包括预定数量的候选速度值的路径的路径度量最小化