预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111326164A(43)申请公布日2020.06.23(21)申请号202010071808.4(22)申请日2020.01.21(71)申请人大连海事大学地址116026辽宁省大连市高新园区凌海路1号(72)发明人张维维毕胜房少军(74)专利代理机构大连东方专利代理有限责任公司21212代理人姜玉蓉李洪福(51)Int.Cl.G10L19/02(2013.01)G10L19/032(2013.01)G10L19/26(2013.01)G10L25/30(2013.01)G10L25/90(2013.01)权利要求书1页说明书3页附图4页(54)发明名称一种半监督式音乐主旋律提取方法(57)摘要本发明公开了一种半监督式音乐主旋律提取方法,包括:对输入音频信号进行归一化和重采样以及滤波预处理,得到模拟人耳听觉特性的音频信号;对音频信号进行常Q谱变换、获得频率按对数分布的变分辨率频谱信号,并对相邻数帧幅度谱进行聚合获得特征向量,根据特征向量构建极限学习机的输入向量集,依据训练集获得输出向量集;对极限学习机进行参数训练,利用极限学习机网络进行旋律音高粗估计;搜索每帧旋律音高粗估计2/3半音范围内的谱峰,并将该谱峰对应的频率作为该帧旋律音高输出,对旋律音高进行微调。CN111326164ACN111326164A权利要求书1/1页1.一种半监督式音乐主旋律提取方法,其特征在于包括:对输入音频信号进行归一化和重采样以及滤波预处理,得到模拟人耳听觉特性的音频信号;对音频信号进行常Q谱变换,获得频率按对数分布的变分辨率频谱信号,并对相邻数帧幅度谱进行聚合获得特征向量,根据特征向量构建极限学习机的输入向量集,根据训练集标记结果生成输出向量集;对极限学习机进行参数训练,利用极限学习机网络进行旋律音高粗估计;若输出向量第一个元素是最大值,则该帧被判断为无旋律帧,若除第一个元素外的其它元素是最大值,则相对应音高作为该帧旋律音高粗估计结果;搜索每帧旋律音高粗估计2/3半音范围内的谱峰,并将该谱峰对应的频率作为该帧旋律音高输出,对旋律音高进行微调。2.根据权利要求1所述的一种半监督式音乐主旋律提取方法,其特征还在于:所述构建极限学习机的输入向量集和输出向量集采用如下方式:用多个特征向量构建极限学习机的输入向量集;读取各个特征向量所对应的标记值,在无旋律段生成第一个元素为1其它元素全为0的一位有效输出向量,在有旋律段,生成每个量化后音高对应元素为1其他元素均为0的一位有效输出向量;对于无标记数据集则输出向量的各元素均为0,进而获得与输入向量集相对应的输出向量集。2CN111326164A说明书1/3页一种半监督式音乐主旋律提取方法技术领域[0001]本发明属于音频信号处理领域,特别是涉及一种半监督式音乐主旋律提取方法。背景技术[0002]现有主旋律提取方法采用的特征分为两类:第一类是低级人工特征,这类特征由研究人员依据信号特点设定,在处理具有多个音源的复杂音乐时性能显著下降,其泛化性差;第二类特征是高级自学习特征,这类特征由算法在数据集基础上自主学习获得,其性能严重依赖于训练集的容量和多样性。最近,深度学习为音乐主旋律提取提供了新的解决方案,但需要耗费较长时间训练得到适当的网络参数,且训练集的容量与多样性仍是制约其性能的重要因素。然而,现有主旋律提取标注数据集仍然缺乏,进而限制了这类方法的性能。发明内容[0003]为了克服上述现有技术的不足,本发明提供了一种半监督式音乐主旋律提取方法,具体包括如下步骤:[0004]对输入音频信号进行归一化和重采样以及滤波预处理,得到模拟人耳听觉特性的音频信号;[0005]对音频信号进行常Q谱变换,获得频率按对数分布的变分辨率频谱信号,并对相邻数帧幅度谱进行聚合获得特征向量,根据特征向量构建极限学习机的输入向量集,根据训练集标记结果生成输出向量集;[0006]对极限学习机进行参数训练,利用极限学习机网络进行旋律音高粗估计;若输出向量第一个元素是最大值,则该帧被判断为无旋律帧,若除第一个元素外的其它元素是最大值,则相对应音高作为该帧旋律音高粗估计结果;[0007]搜索每帧旋律音高粗估计2/3半音范围内的谱峰,并将该谱峰对应的频率作为该帧旋律音高输出,对旋律音高进行微调。[0008]所述构建极限学习机的输入向量集和输出向量集采用如下方式:[0009]用多个特征向量构建极限学习机的输入向量集;读取各个特征向量所对应的标记值,在无旋律段生成第一个元素为1其它元素全为0的一位有效输出向量,在有旋律段,生成每个量化后音高对应元素为1其他元素均为0的一位有效输出向量;对于无标记数据集则输出向量的各元素均为0,进而获得与输入向量集相对应的输出向量集。[001