预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110580458A(43)申请公布日2019.12.17(21)申请号201910787184.3(22)申请日2019.08.25(71)申请人天津大学地址300072天津市南开区卫津路92号(72)发明人吴琼李锵关欣(74)专利代理机构天津市北洋有限责任专利代理事务所12201代理人程毓英(51)Int.Cl.G06K9/00(2006.01)G06K9/34(2006.01)G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书1页说明书4页附图1页(54)发明名称结合多尺度残差式CNN和SRU的乐谱图像识别方法(57)摘要本发明涉及一种结合多尺度残差式CNN和SRU的乐谱图像识别方法,包括下列步骤:第一步,建立乐谱图像的数据集;第二步,构建模型:将多尺度残差式CNN和SRU结合;第三步,训练模型:利用数据增强后的数据集进行模型训练,模型输入为数据集中的乐谱图像,真值标签为图像对应的语义标签,通过链式时序分类损失函数逐步调整网络各参数并达到最优,最终输出音符语义信息的预测值。CN110580458ACN110580458A权利要求书1/1页1.一种结合多尺度残差式CNN和SRU的乐谱图像识别方法,包括下列步骤:第一步,建立乐谱图像的数据集:选取谱例并使用图像增强技术,使得数据集包含不理想情况下的乐谱图像以扩充数据集。第二步,构建模型:将多尺度残差式CNN和SRU结合;(1)尺度残差式CNN网络:多尺度残差式CNN由五个卷积残差块构成并进行多尺度特征融合,输入图像数据依次通过五个残差块卷积层后得到特征图C1,C2,C3,C4以及C5,其卷积核尺寸均为3×3,卷积核数量以32、64、128、256、256逐层增加。将最后一层特征图C5经过2倍上采样后的结果与特征图C4通过1×1卷积操作后的结果相融合得到特征F5,对F5和C3进行C5和C4相同的处理得到特征F4。(2)SRU部分:由两层双向SRU组成,每层循环长度因乐谱图像的高度与所选卷积核数确定而保持不变,每一个SRU中其权重正向学习和反向传播均通过512个隐藏层单元实现;第三步,训练模型:利用数据增强后的数据集进行模型训练,模型输入为数据集中的乐谱图像,真值标签为图像对应的语义标签,通过链式时序分类损失函数逐步调整网络各参数并达到最优,最终输出音符语义信息的预测值。2CN110580458A说明书1/4页结合多尺度残差式CNN和SRU的乐谱图像识别方法技术领域[0001]本发明是序列化图像识别领域的重要分支,将神经网络应用于图像的识别中,针对难点音符对音符识别网络进行优化,实现对乐谱图像更精准、快速的转换。背景技术[0002]乐谱对音符、音调和音长等相关信息进行详尽描述,成为音乐人学习、分享以及传播音乐最直接的方式,但不少经典乐谱历经环境变化与时代变迁而受到损坏、甚至丢失,可见人为的储存并不能使所有乐谱完好无损地保留。随着计算机应用与图像扫描等先进技术的快速发展,纸质版乐谱文件可经过光学乐谱识别(OpticalMusicRecognition,OMR)技术转化为计算机能够“读懂”的电子版文件,从而可将其广泛应用于音乐信息检索、音乐辅助教学等领域。但由于通用的乐谱识别算法结构复杂,实现难度较大,现有的商业识别软件精度较低,因此迫切需要研究一种易实现且高精度OMR算法。[0003]Bainbridge等[1]提出早期OMR算法通用框架,主要包括图像预处理、音符识别、音乐信息重构与最终表达构建等部分,而五线谱检测与删除、音符分割以及识别与音符信息的重组是其中技术难点,但每一步实现均有难度且整体识别精度不够。近年来伴随着大数据的驱动,机器学习与深度神经网络得到广泛应用,Sober-Mira等[2]提出将卷积神经网络(ConvolutionalNeuralNetwork,CNN)应用于音符识别部分,提升通用框架算法的精度;Shi等[3]首先提出卷积循环神经网络(ConvolutionalRecurrentNeuralNetworks,CRNN),并将其应用于场景文本识别中效果显著;Calvo-Zaragoza等[4]在乐谱识别中采用Shi等[3]提出的算法,并进行模型优化与定量分析,首先对输入图片进行预处理,统一以1:4比例的三种单声道乐谱图像尺寸输入网络中,其次对CRNN网络中特征识别部分采用双向长短时记忆(Bi-directionalLongShort-TermMemory,BiLSTM)网络构成C-BiLSTM网络,最终在尺寸为60×240的输入图像中得到约22.37%序列错误率及2.16%符号错误率,但特征提取能力不足导致其对于难点音符如