预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110443127A(43)申请公布日2019.11.12(21)申请号201910571835.5(22)申请日2019.06.28(71)申请人天津大学地址300072天津市南开区卫津路92号(72)发明人吴琼李锵关欣(74)专利代理机构天津市北洋有限责任专利代理事务所12201代理人程毓英(51)Int.Cl.G06K9/00(2006.01)G06K9/34(2006.01)G06K9/62(2006.01)G06N3/04(2006.01)权利要求书1页说明书5页附图2页(54)发明名称结合残差卷积结构和循环神经网络的乐谱图像识别方法(57)摘要本发明涉及一种基于残差结构卷积神经网络和循环神经网络的乐谱图像识别方法,包括:1)建立乐谱图像的数据集;2)构建模型:将残差结构卷积神经网络和循环神经网络结合,构建深度学习网络模型,设置模型结构参数;3)训练模型:利用数据集对构建好的深度学习网络模型进行训练,深度学习网络模型输入为数据集中乐谱图像,真值标签为乐谱图像中各音符对应的语义信息,通过链式时序分类损失函数逐步调整网络各参数并达到最优,最终输出音符语义信息的预测值。CN110443127ACN110443127A权利要求书1/1页1.一种基于残差结构卷积神经网络和循环神经网络的乐谱图像识别方法,包括以下步骤:1)建立乐谱图像的数据集:对已有数据集上进行数据增强以扩充数据集,随机选取部分数据加入柏林噪声,高斯白噪声,弹性形变等以模拟不理想情况下乐谱图像数据,并将其划分为训练集、验证集和测试集;2)构建模型:将残差结构卷积神经网络和循环神经网络结合,构建深度学习网络模型,设置模型结构参数,残差结构卷积神经网络中由5层残差块构成,每一层残差块内部由卷积层、BN层、激活函数层三部分构成,每一层残差块后连接最大池化层;五层残差块中卷积核尺寸均为3*3,卷积核数量逐层变化分别为32、64、128、256和256,最大池化层尺寸为2*2,且步长为2,激活函数采用LeakyReLU函数;循环神经网络采用双向长短时记忆网络BiLSTM,共包含两层BiLSTM,每一层中隐藏层由512个神经网络单元构成;3)训练模型:利用数据集对构建好的深度学习网络模型进行训练,深度学习网络模型输入为数据集中乐谱图像,真值标签为乐谱图像中各音符对应的语义信息,通过链式时序分类损失函数逐步调整网络各参数并达到最优,最终输出音符语义信息的预测值;4)利用乐谱显示软件Verovio将深度学习网络输出的预测值转化为结果易于观察的乐谱图像。2CN110443127A说明书1/5页结合残差卷积结构和循环神经网络的乐谱图像识别方法技术领域[0001]本发明是序列化图像识别领域的重要分支,将神经网络应用于乐谱图像的识别中,采用端对端的训练方式改进传统框架中出现的问题,实现对乐谱图像实时、有效的转换。背景技术[0002]乐谱是我们想要学习音乐最直接的来源,它对音符的信息有最为全面的描述。而通常情况下,乐谱是以纸质版来保存于图书馆,博物馆或者作曲家手中。但是随着时间推移,保存环境的变化,乐谱就会收到污染,损害等。随着计算机科学在音乐领域的不断渗入,计算机给人类的音乐活动带来了生产方式的变革,逐渐考虑将纸质版乐谱转化为电子版,这样更容易存储与保护。然而,目前人工读谱和手工操作的乐谱录入方式成为了乐谱数字化的瓶颈[1]。随着计算机网络、数字娱乐的不断发展,计算机音乐成为智能多媒体的重要组成部分并在人机交互领域扮演着重要的角色。通过光学音符识别技术(OpticalMusicRecognition,OMR)让计算机能够听懂音乐。此系统由于能简便快速地实现乐谱的计算机录入工作,在电脑音乐、计算机辅助作曲及音乐作品数字化等领域有广阔的应用前景[2]。[0003]OMR研究自1966年以来开始,1966年,Pruslin首次尝试自动识别乐谱。他的系统能够识别出音符的头和和弦;1970年,Prerau引入了图像分割的概念来检测音乐符号的原始元素。Kassler随后对这两项OMR创始著作进行了修订,并随着廉价光学扫描仪的普及,OMR研究在20世纪80年代后期得到了扩展。1997年,Bainbridge总结了现有的技术,并提出了一个可扩展的音乐识别系统,它不局限于特定的原始形状和语义特征。与Bell一起,他们归纳了OMR系统的通用框架:乐谱图像预处理,五线谱检测与删除,音符基元的识别以及音符基元的重组[3,4]。Homenda和Rebelo提出了将模式识别研究应用在音乐标注。Jones等人提出了一项关于音乐片数字化、识别和恢复的研究[5]。随后Pruslin于2006年提出将隐马尔可夫模型(HMM)应用于音符的识别阶段