预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112686104A(43)申请公布日2021.04.20(21)申请号202011510003.1(22)申请日2020.12.19(71)申请人北京工业大学地址100124北京市朝阳区平乐园100号(72)发明人黄志清王师凯张煜森(74)专利代理机构北京思海天达知识产权代理有限公司11203代理人沈波(51)Int.Cl.G06K9/00(2006.01)G06K9/46(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书3页附图3页(54)发明名称基于深度学习的多声部乐谱识别方法(57)摘要本发明公开了基于深度学习的多声部乐谱识别方法,本发明针对印刷体多声部乐谱提出一个基于深度学习的乐谱识别模型,基于卷积神经网络、数据增强、迁移学习的端到端乐谱音符识别方法旨在解决多声部乐谱音符识别过程中存在精度低,音符遗漏等问题。该模型采用多任务学习,可同时学习音高、时值的分类任务和音符坐标的回归任务。在模型在训练上,使用了神经网络中的微调技术,目的是为了更好地检测到乐谱中的和弦音符,实验结果表明,该模型能精确地识别多声部乐谱中的音符,在和弦音符的识别上也表现出了良好的性能。CN112686104ACN112686104A权利要求书1/2页1.基于深度学习的多声部乐谱识别方法,其特征在于:该方法分为以下四步:步骤1、数据预选取:从MuseScore数据集中下载乐谱图像作为模型预训练阶段数据集,下载乐谱图像以单音为主,该数据集中乐谱图像由单音音符组成,不包含和弦音符,音符训练标签由音符坐标、音高和时值信息组成;从DeepScore选取300张具有和弦音符的多声部乐谱作为模型微调数据集,由于该数据集中音符训练标签缺少音高和时值信息,因此使用lableImg标注软件对乐谱中音符的音高和时值进行二次标注,最终解析得到的训练标签与MuseScore数据集中的一致;步骤2、采用噪声注入、模糊处理、弹性变换以及色彩变换四种不同的增强方法分别用于步骤1中下载乐谱图像,以模仿非理想情况下的输入;步骤3、音符识别模型预训练:选取MuseScore数据集中的乐谱图像,使用步骤2中的数据增强方法进行数据扩充后用于模型预训练;训练过程完全端到端,直接输入乐谱图像,经过该端到端模型计算损失函数,最后通过损失函数优化模型参数;步骤4、音符识别模型微调:在DeepScores数据集,基于预训练好的模型应用神经网络微调技术,以提升对和弦音符的识别能力,为加强对和弦音符的识别,将预训练好的模型在DeepScores数据集上运用微调进行神经网络参数调优训练,将经过数据增强和裁剪处理后的乐谱图像,输入预训练后的模型用于模型微调训练。2.根据权利要求1所述的基于深度学习的多声部乐谱识别方法,其特征在于:将乐谱图像输入卷积神经网络,经过Houglass52网络提取乐谱图像的特征图,之后采用多尺度预测技术分别在三个不同尺寸的特征图上进行独立的预测,最后分类输出音符时值和音高并回归音符的边界框。3.根据权利要求1所述的基于深度学习的多声部乐谱识别方法,其特征在于:乐谱识别模型分为主干网络和检测头两部分:主干网络用于乐谱特征提取,检测头基于提取到的乐谱特征图进行音符中心点及尺寸预测,最终特征图的每个位置将预测出包含坐标、音高、时值信息的特征向量;采用Houglass52作为模型的主干网络,该网络通过捕捉多尺度特征信息与多个中间监督的结构来提高特征的精细度,Hourglass52网络以残差模块作为基本单元,基本结构分为主路与旁路两个部分:主路上含有三个卷积尺寸不同的卷积层,网络通过主路的卷积层提取出高层次的特征;采用多尺度特征预测,在下采样4、8、16倍的融合特征图上分别独立做预测,最大的特征图预测小目标,最小的特征图预测大目标,以获取符号更精确的坐标信息。4.根据权利要求1所述的基于深度学习的多声部乐谱识别方法,其特征在于:在卷积神经网络输出特征图之后,检测头基于提取到的乐谱特征图进行输出向量的预测;特征图上的每个像素点经过检测头生成n维特征向量,特征向量的维度n为:(置信度+候选框坐标+音高类别+时值类别),即在特征图的每个像素点上产生一个目标候选区域;对于每个目标候选区域,用sigmoid激活函数得到目标框的置信度,候选框的坐标,音符音高、音符时值,实现多任务训练。5.根据权利要求1所述的基于深度学习的多声部乐谱识别方法,其特征在于:应用深度卷积神经网络检测音符边界框并识别其时值和音高,提升了音符的识别准确率。6.根据权利要求1所述的基于深度学习的多声部乐谱识别方法,其特征在于:步骤2中,噪声注入:选取的干扰噪声为加性高斯白噪声,该噪声会引入像素强度的