基于深度学习的多声部乐谱识别方法-豆柴文库

基于深度学习的多声部乐谱识别方法.pdf

2023-12-02

10金币

827KB

9页

书生****写意

实名认证

内容提供者

1/9

2/9

3/9

4/9

5/9

6/9

7/9

8/9

9/9

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112686104A(43)申请公布日2021.04.20(21)申请号202011510003.1(22)申请日2020.12.19(71)申请人北京工业大学地址100124北京市朝阳区平乐园100号(72)发明人黄志清王师凯张煜森(74)专利代理机构北京思海天达知识产权代理有限公司11203代理人沈波(51)Int.Cl.G06K9/00(2006.01)G06K9/46(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书3页附图3页(54)发明名称基于深度学习的多声部乐谱识别方法(57)摘要本发明公开了基于深度学习的多声部乐谱识别方法，本发明针对印刷体多声部乐谱提出一个基于深度学习的乐谱识别模型，基于卷积神经网络、数据增强、迁移学习的端到端乐谱音符识别方法旨在解决多声部乐谱音符识别过程中存在精度低，音符遗漏等问题。该模型采用多任务学习，可同时学习音高、时值的分类任务和音符坐标的回归任务。在模型在训练上，使用了神经网络中的微调技术，目的是为了更好地检测到乐谱中的和弦音符，实验结果表明，该模型能精确地识别多声部乐谱中的音符，在和弦音符的识别上也表现出了良好的性能。CN112686104ACN112686104A权利要求书1/2页1.基于深度学习的多声部乐谱识别方法，其特征在于：该方法分为以下四步：步骤1、数据预选取：从MuseScore数据集中下载乐谱图像作为模型预训练阶段数据集，下载乐谱图像以单音为主，该数据集中乐谱图像由单音音符组成，不包含和弦音符，音符训练标签由音符坐标、音高和时值信息组成；从DeepScore选取300张具有和弦音符的多声部乐谱作为模型微调数据集，由于该数据集中音符训练标签缺少音高和时值信息，因此使用lableImg标注软件对乐谱中音符的音高和时值进行二次标注，最终解析得到的训练标签与MuseScore数据集中的一致；步骤2、采用噪声注入、模糊处理、弹性变换以及色彩变换四种不同的增强方法分别用于步骤1中下载乐谱图像，以模仿非理想情况下的输入；步骤3、音符识别模型预训练：选取MuseScore数据集中的乐谱图像，使用步骤2中的数据增强方法进行数据扩充后用于模型预训练；训练过程完全端到端，直接输入乐谱图像，经过该端到端模型计算损失函数，最后通过损失函数优化模型参数；步骤4、音符识别模型微调：在DeepScores数据集，基于预训练好的模型应用神经网络微调技术，以提升对和弦音符的识别能力，为加强对和弦音符的识别，将预训练好的模型在DeepScores数据集上运用微调进行神经网络参数调优训练，将经过数据增强和裁剪处理后的乐谱图像，输入预训练后的模型用于模型微调训练。2.根据权利要求1所述的基于深度学习的多声部乐谱识别方法，其特征在于：将乐谱图像输入卷积神经网络，经过Houglass52网络提取乐谱图像的特征图，之后采用多尺度预测技术分别在三个不同尺寸的特征图上进行独立的预测，最后分类输出音符时值和音高并回归音符的边界框。3.根据权利要求1所述的基于深度学习的多声部乐谱识别方法，其特征在于：乐谱识别模型分为主干网络和检测头两部分：主干网络用于乐谱特征提取，检测头基于提取到的乐谱特征图进行音符中心点及尺寸预测，最终特征图的每个位置将预测出包含坐标、音高、时值信息的特征向量；采用Houglass52作为模型的主干网络，该网络通过捕捉多尺度特征信息与多个中间监督的结构来提高特征的精细度，Hourglass52网络以残差模块作为基本单元，基本结构分为主路与旁路两个部分：主路上含有三个卷积尺寸不同的卷积层，网络通过主路的卷积层提取出高层次的特征；采用多尺度特征预测，在下采样4、8、16倍的融合特征图上分别独立做预测，最大的特征图预测小目标，最小的特征图预测大目标，以获取符号更精确的坐标信息。4.根据权利要求1所述的基于深度学习的多声部乐谱识别方法，其特征在于：在卷积神经网络输出特征图之后，检测头基于提取到的乐谱特征图进行输出向量的预测；特征图上的每个像素点经过检测头生成n维特征向量，特征向量的维度n为:(置信度+候选框坐标+音高类别+时值类别)，即在特征图的每个像素点上产生一个目标候选区域；对于每个目标候选区域，用sigmoid激活函数得到目标框的置信度，候选框的坐标，音符音高、音符时值，实现多任务训练。5.根据权利要求1所述的基于深度学习的多声部乐谱识别方法，其特征在于：应用深度卷积神经网络检测音符边界框并识别其时值和音高,提升了音符的识别准确率。6.根据权利要求1所述的基于深度学习的多声部乐谱识别方法，其特征在于：步骤2中，噪声注入：选取的干扰噪声为加性高斯白噪声，该噪声会引入像素强度的

相关资料

基于深度学习的多声部乐谱识别方法.pdf

本发明公开了基于深度学习的多声部乐谱识别方法，本发明针对印刷体多声部乐谱提出一个基于深度学习的乐谱识别模型，基于卷积神经网络、数据增强、迁移学习的端到端乐谱音符识别方法旨在解决多声部乐谱音符识别过程中存在精度低，音符遗漏等问题。该模型采用多任务学习，可同时学习音高、时值的分类任务和音符坐标的回归任务。在模型在训练上，使用了神经网络中的微调技术，目的是为了更好地检测到乐谱中的和弦音符，实验结果表明，该模型能精确地识别多声部乐谱中的音符，在和弦音符的识别上也表现出了良好的性能。

2023-12-02

827KB

基于深度学习的端到端乐谱音符识别方法.pdf

本发明公开了基于深度学习的端到端乐谱音符识别方法，该方法一共分为三步：(1)数据预处理：需要从MuseScore中下载对应的数据集，重新编码音高和时值标签。(2)数据增强：对重新编码后的乐谱数据进行数据增强，本发明提出了4种不同的增强方法。(3)端到端模型：应用于端到端乐谱音符识别的深度卷积神经网络模型，将增强后的数据输入的模型，模型的输出为音符时值和音高。本发明在于针对打印体乐谱提出一个基于深度学习的乐谱音符识别模型，即输入整张乐谱图像到该模型，直接输出乐谱上音符的时值和音高，该模型完全端到端，能够精准

2023-12-04

672KB

电子装置、基于深度学习的乐谱识别方法及存储介质.pdf

本发明公开了一种电子装置、基于深度学习的乐谱识别方法及存储介质，通过获取待判别音乐质量的乐谱中的音乐元素，将获取的音乐元素进行预处理，生成对应的音乐特征矩阵；将所述音乐特征矩阵代入预先确定的音乐力度标注模型进行识别，输出标注了音乐力度的乐谱；根据预先确定的音乐识别模型分析标注了音乐力度的乐谱，确定标注了音乐力度的乐谱是否符合预定义的音乐标准；若符合，则确定待判别音乐质量的乐谱合格，或者，若不符合，则确定待判别音乐质量的乐谱不合格。能够准确地识别出音乐作品的质量，且该方法简单灵活实用性强。

2023-12-05

466KB

基于多频多域深度学习的雷达步态识别方法.pdf

本发明公开了一种基于多频多域深度学习的雷达步态识别方法，用频率步进连续波雷达对步态多次采样，对每个样本分别处理得到多频率时频域微多普勒谱图和时域距离像。将多频率时频域谱图按相似度分组，再将同一组时频域谱图组合为一多通道的高维时频域谱图，并运用多个卷积神经网络分别提取多组高维时频域谱图和时域距离像的分类特征向量，将提取的多组时频域特征和时域特征结合为一个新的特征向量，并将其传入到稀疏自编码神经网络去除无用特征后输入到分类器中完成步态分类。本发明通过获取多频率时频域微多普勒谱图和时域距离像，由深度学习网络综合

2023-11-01

816KB

一种基于深度学习的多特征表情识别方法.pdf

一种基于深度学习的多特征表情识别方法，属于机器学习和深度学习技术领域，包括如下：获取包含人体和环境的清晰图像并进行简单的预处理，将图片压缩到640*640大小或小于这个大小的原色RGB图片，保留颜色通道，这里使用的是公开数据集Emotic表情识别数据集；整体网络的构成为目标检测网络并联场景信息识别网络，最后输出到分类网络，而目标检测网络由主干网络CSPdarknet53，特征提取的特征金字塔结构并联特征增强网络，最后输出人体的位置信息和0/1置信度信息，再送入分类网络和场景信息一起进行分类输出最终结果。本

2023-06-13

1.3MB