预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110852375A(43)申请公布日2020.02.28(21)申请号201911090621.2(22)申请日2019.11.09(71)申请人北京工业大学地址100124北京市朝阳区平乐园100号(72)发明人黄志清贾翔王师凯张煜森(74)专利代理机构北京思海天达知识产权代理有限公司11203代理人沈波(51)Int.Cl.G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书1页说明书3页附图3页(54)发明名称基于深度学习的端到端乐谱音符识别方法(57)摘要本发明公开了基于深度学习的端到端乐谱音符识别方法,该方法一共分为三步:(1)数据预处理:需要从MuseScore中下载对应的数据集,重新编码音高和时值标签。(2)数据增强:对重新编码后的乐谱数据进行数据增强,本发明提出了4种不同的增强方法。(3)端到端模型:应用于端到端乐谱音符识别的深度卷积神经网络模型,将增强后的数据输入的模型,模型的输出为音符时值和音高。本发明在于针对打印体乐谱提出一个基于深度学习的乐谱音符识别模型,即输入整张乐谱图像到该模型,直接输出乐谱上音符的时值和音高,该模型完全端到端,能够精准识别多声部乐谱图像。CN110852375ACN110852375A权利要求书1/1页1.基于深度学习的端到端乐谱音符识别方法,其特征在于:该方法一共分为三步,(1)数据预处理:需要从MuseScore中下载对应的数据集,重新编码音高和时值标签;(2)数据增强:对重新编码后的乐谱数据进行数据增强,本发明提出了4种不同的增强方法;(3)端到端模型:应用于端到端乐谱音符识别的深度卷积神经网络模型,将增强后的数据输入的模型,模型的输出为音符时值和音高。2.根据权利要求1所述的基于深度学习的端到端乐谱音符识别方法,其特征在于:从选取MusicXML文件的语料库中,创建乐谱图像和相应音符注释的数据集;使用MuseScore将MusicXML文件转换为乐谱图像,乐谱图像对应的标签用音高、时值和音符边界框位置组成的向量表示;每个音符用两个值表示:音高和时值;音高被重新编码为垂直距离,即音符与五线谱垂直轴上的距离;音符的音高值由音符到五线谱的垂直距离而定,边上的数字表示音高的标签,红色音符的音高标签为5,黄色音符的标签为-2;Note显示不同时值音符对应的形态,Duration表示音符的时值,Label表示编码后的的时值标签;时值以四分音符为一个单位;乐谱对应标签的时值和音高按照上述编码。3.根据权利要求1所述的基于深度学习的端到端乐谱音符识别方法,其特征在于:计算机生成的乐谱图像中不存在噪声和变化,训练出来的模型不具备泛化性;为了使模型对较低质量的输入和不同类型的乐谱图像具有鲁棒性,提出了模拟自然环境下的输入噪声源的增强方法,分别为图像经过高斯模糊处理,图像进过仿射变换向左旋转了5度,图像采用弹性变换改变图像视角,图像经过色彩变换模拟光照对图像的影响。4.根据权利要求1所述的基于深度学习的端到端乐谱音符识别方法,其特征在于:音符识别模型具体流程为:将乐谱图像输入卷积神经网络,经过一系列卷积、残差、拼接操作,提取乐谱图像的特征图;之后在特征图上分类输出音符时值和音高并回归音符的边界框;为了让音符有足够大的感受野,模型采用YOLOv3的基础网络来提取特征,网络结构分为5个部分,分别是conv1_x,conv2_x,conv3_x,conv4_x和conv5_x;其中conv1_x,conv2_x,conv3_x,conv4_x和conv5_x分别包括1,2,8,8,6个buildingblock,每个buildingblock包括2个卷积层和一个残差连接层;考虑到等小物体经过卷积后会出现特征丢失,在YOLOv3基础网络输出特征图之后上采样8倍与低层网络的特征图进行特征融合来获取的更加全面的特征信息;在卷积神经网络输出特征图之后,基于特征图上的每个像素点经过中间层生成n维特征向量,特征向量的维度n为:7*(置信度+候选框坐标+音高类别+时值类别),即在n维特征向量产生7个目标候选区域;对于每个目标候选区域,用sigmoid激活函数得到目标框的置信度,候选框的坐标,音符音高、音符时值,实现多任务训练。2CN110852375A说明书1/3页基于深度学习的端到端乐谱音符识别方法技术领域[0001]本发明属于光学乐谱识别领域,是一种基于深度学习的端到端神经网络识别方法,可应用于乐谱音符识别。背景技术[0002]光学乐谱识别是光学字符识别在音乐上的应用,用于将乐谱识别为可编辑或可播放的形式,如MIDI(用于播放)和MusicXML(用于页面布局)。相对于乐谱