基于深度学习的端到端乐谱音符识别方法-豆柴文库

基于深度学习的端到端乐谱音符识别方法.pdf

2023-12-04

10金币

672KB

8页

是向****23

实名认证

内容提供者

1/8

2/8

3/8

4/8

5/8

6/8

7/8

8/8

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110852375A(43)申请公布日2020.02.28(21)申请号201911090621.2(22)申请日2019.11.09(71)申请人北京工业大学地址100124北京市朝阳区平乐园100号(72)发明人黄志清贾翔王师凯张煜森(74)专利代理机构北京思海天达知识产权代理有限公司11203代理人沈波(51)Int.Cl.G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书1页说明书3页附图3页(54)发明名称基于深度学习的端到端乐谱音符识别方法(57)摘要本发明公开了基于深度学习的端到端乐谱音符识别方法，该方法一共分为三步：(1)数据预处理：需要从MuseScore中下载对应的数据集，重新编码音高和时值标签。(2)数据增强：对重新编码后的乐谱数据进行数据增强，本发明提出了4种不同的增强方法。(3)端到端模型：应用于端到端乐谱音符识别的深度卷积神经网络模型，将增强后的数据输入的模型，模型的输出为音符时值和音高。本发明在于针对打印体乐谱提出一个基于深度学习的乐谱音符识别模型，即输入整张乐谱图像到该模型，直接输出乐谱上音符的时值和音高，该模型完全端到端，能够精准识别多声部乐谱图像。CN110852375ACN110852375A权利要求书1/1页1.基于深度学习的端到端乐谱音符识别方法，其特征在于：该方法一共分为三步，(1)数据预处理：需要从MuseScore中下载对应的数据集，重新编码音高和时值标签；(2)数据增强：对重新编码后的乐谱数据进行数据增强，本发明提出了4种不同的增强方法；(3)端到端模型：应用于端到端乐谱音符识别的深度卷积神经网络模型，将增强后的数据输入的模型，模型的输出为音符时值和音高。2.根据权利要求1所述的基于深度学习的端到端乐谱音符识别方法，其特征在于：从选取MusicXML文件的语料库中，创建乐谱图像和相应音符注释的数据集；使用MuseScore将MusicXML文件转换为乐谱图像，乐谱图像对应的标签用音高、时值和音符边界框位置组成的向量表示；每个音符用两个值表示：音高和时值；音高被重新编码为垂直距离，即音符与五线谱垂直轴上的距离；音符的音高值由音符到五线谱的垂直距离而定，边上的数字表示音高的标签，红色音符的音高标签为5，黄色音符的标签为-2；Note显示不同时值音符对应的形态，Duration表示音符的时值，Label表示编码后的的时值标签；时值以四分音符为一个单位；乐谱对应标签的时值和音高按照上述编码。3.根据权利要求1所述的基于深度学习的端到端乐谱音符识别方法，其特征在于：计算机生成的乐谱图像中不存在噪声和变化，训练出来的模型不具备泛化性；为了使模型对较低质量的输入和不同类型的乐谱图像具有鲁棒性，提出了模拟自然环境下的输入噪声源的增强方法，分别为图像经过高斯模糊处理，图像进过仿射变换向左旋转了5度，图像采用弹性变换改变图像视角，图像经过色彩变换模拟光照对图像的影响。4.根据权利要求1所述的基于深度学习的端到端乐谱音符识别方法，其特征在于：音符识别模型具体流程为：将乐谱图像输入卷积神经网络，经过一系列卷积、残差、拼接操作，提取乐谱图像的特征图；之后在特征图上分类输出音符时值和音高并回归音符的边界框；为了让音符有足够大的感受野，模型采用YOLOv3的基础网络来提取特征，网络结构分为5个部分，分别是conv1_x，conv2_x，conv3_x，conv4_x和conv5_x；其中conv1_x，conv2_x，conv3_x，conv4_x和conv5_x分别包括1，2，8，8，6个buildingblock，每个buildingblock包括2个卷积层和一个残差连接层；考虑到等小物体经过卷积后会出现特征丢失，在YOLOv3基础网络输出特征图之后上采样8倍与低层网络的特征图进行特征融合来获取的更加全面的特征信息；在卷积神经网络输出特征图之后，基于特征图上的每个像素点经过中间层生成n维特征向量，特征向量的维度n为：7*(置信度+候选框坐标+音高类别+时值类别)，即在n维特征向量产生7个目标候选区域；对于每个目标候选区域，用sigmoid激活函数得到目标框的置信度，候选框的坐标，音符音高、音符时值，实现多任务训练。2CN110852375A说明书1/3页基于深度学习的端到端乐谱音符识别方法技术领域[0001]本发明属于光学乐谱识别领域，是一种基于深度学习的端到端神经网络识别方法，可应用于乐谱音符识别。背景技术[0002]光学乐谱识别是光学字符识别在音乐上的应用，用于将乐谱识别为可编辑或可播放的形式，如MIDI(用于播放)和MusicXML(用于页面布局)。相对于乐谱

相关资料

基于深度学习的端到端乐谱音符识别方法.pdf

本发明公开了基于深度学习的端到端乐谱音符识别方法，该方法一共分为三步：(1)数据预处理：需要从MuseScore中下载对应的数据集，重新编码音高和时值标签。(2)数据增强：对重新编码后的乐谱数据进行数据增强，本发明提出了4种不同的增强方法。(3)端到端模型：应用于端到端乐谱音符识别的深度卷积神经网络模型，将增强后的数据输入的模型，模型的输出为音符时值和音高。本发明在于针对打印体乐谱提出一个基于深度学习的乐谱音符识别模型，即输入整张乐谱图像到该模型，直接输出乐谱上音符的时值和音高，该模型完全端到端，能够精准

2023-12-04

672KB

一种基于深度学习的端到端车牌识别方法.pdf

本发明提出一种基于深度学习的端到端车牌识别方法，经过高斯混合模型算法处理后输出待检测车牌的图像；卷积神经网络提取共享特征模块，将待检测车牌的图像输入已经训练过卷积神经网络算法提取特征，再经过车牌图像初步检测模块处理后输出回归位置信息、回归角度特征映射图以及对应的判别是否车牌的特征映射图；车牌初步检测模块通过对应的判别是否车牌的特征映射图分析获得置信度得分，得到一批候选车牌图像，利用非极大值抑制算法进行车牌图像融合，最后获取真实的车牌位置的图像；将真实的车牌位置的图像输入到车牌内容识别反馈模块识别出车牌内容

2024-01-10

442KB

基于深度学习的端到端验证码识别.docx

基于深度学习的端到端验证码识别标题：基于深度学习的端到端验证码识别摘要：验证码识别是一项在互联网应用和网络安全领域中非常重要的任务。其中，基于深度学习的端到端验证码识别已取得了显著的成果。本论文旨在研究和分析端到端验证码识别的相关技术和方法，并结合深度学习的理论和算法，提出一种基于深度学习的端到端验证码识别系统。通过实验和评估，验证该系统在验证码识别任务中的优越性，并探讨其在实际应用中的应用潜力。关键词：验证码识别，深度学习，端到端，图像处理，卷积神经网络1.引言在当今信息时代，验证码已广泛应用于保护系统

2024-10-24

11KB

一种基于对比学习的端到端音障语音识别方法.pdf

本发明公开了一种基于对比学习的端到端音障语音识别方法，该方法具备语音识别能力前需要使用大量正常发音数据预训练得到一个基本模型，再迁移到音障语音识别的任务中。在训练完成后，本方法就有了音障语音识别的能力。本发明首先对音障语音数据进行频谱图上的数据增强，再通过Transformer模型中的编码器提取隐层信息，然后该隐层信息经过投影模块被提取出低维的隐表示。最后本方法在隐表示所在的低维隐空间上进行对比损失的计算。在解码过程中，解码器直接使用隐层信息进行解码。本发明的创新点在于将对比学习与Transformer模

2023-11-07

949KB

基于端到端深度学习的遥感影像林地检测研究.docx

基于端到端深度学习的遥感影像林地检测研究基于端到端深度学习的遥感影像林地检测研究摘要：随着遥感技术的不断发展，遥感影像在林地监测中扮演着重要的角色。然而，传统的林地检测方法通常需要大量人力和时间，并且受到领域知识和经验的限制，导致检测结果不够准确。在本研究中，我们提出了一种基于端到端深度学习的遥感影像林地检测方法，以解决上述问题。通过利用深度神经网络模型，我们能够自动学习遥感影像中的林地特征，并实现高效准确的林地检测。1.引言林地作为地球上重要的生态系统之一，具有重要的经济和环境价值。然而，林地的检测和监

2024-10-20

11KB