预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105654127A(43)申请公布日2016.06.08(21)申请号201511018552.6(22)申请日2015.12.30(71)申请人成都数联铭品科技有限公司地址610041四川省成都市高新区天府大道中段666号希顿国际广场B座1005(72)发明人刘世林何宏靖陈炳章吴雨浓姚佳(51)Int.Cl.G06K9/62(2006.01)G06N3/08(2006.01)权利要求书2页说明书6页附图2页(54)发明名称基于端到端的图片文字序列连续识别方法(57)摘要本发明涉及图像文字识别领域,特别涉及基于端到端的图片文字序列连续识别方法,本发明应用了CNN和RNN的技术,通过CNN对包含多个字符的整个图片进行特征提取,然后将同样的特征送入RNN进行重复递归使用,以实现连续预测多个字符的目的。本发明方法系统的克服了OCR识别前先要进行图片切分的弊端,简化了图像文字识别的前期处理过程,显著提高了文字识别的效率。又由于RNN递归使用了上一轮的输出数据,在更好的提升字、词序列的识别准确率的同时进一步提高了文字识别的处理效率。CN105654127ACN105654127A权利要求书1/2页1.基于端到端的图片文字序列连续识别方法,其特征在于,包含以下实现步骤:(1)构建卷积神经网络和递归神经网络模型,其中所述递归神经网络每个时刻输入信号包括:所述卷积神经网络提取的样本特征数据,上一时刻递归神经网络的输出数据;(2)使用训练样本集来训练所述卷积神经网络和递归神经网络模型;(3)将待识别图像文字序列输入训练好的所述卷积神经网络及递归神经网络中,输出待识别图像文字序列的完整识别结果。2.如权利要求1所述的方法,其特征在于:本方法中所使用的递归神经网络模型中采用以下向前算法公式:其中I是输入向量的维度,H是隐层的神经元个数,K是输出层的神经元个数,x为卷积神经网络提取出来的特征数据,为当前时刻递归神经网络中隐含层神经元的输入,为当前时刻递归神经网络隐含层神经元的输出;为当前时刻递归神经网络输出层神经元的输入;为当前时刻递归神经网络输出层神经元的输出,为一个概率值,表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例。3.如权利要求2所述的方法,其特征在于:所述参数wih,wh′h为跨时序共享,在一个样本训练过程中各个时刻所使用的wih,wh′h值相同。4.如权利要求3所述的方法,其特征在于:神经网络训练过程中,通过开发集来检验神经网络的训练结果,仅保留在开发集上识别准确率最高的卷积神经网络和递归神经网络模型。5.如权利要求1至3之一所述的方法,其特征在于:包含以下实现步骤:(2-1)将人工标注的训练样本输入到卷积神经网络中;(2-2)通过所述卷积网络对输入训练样本进行特征提取;(2-3)将所述卷积神经网络提取出来的特征数据作为第一数据输入第一时刻递归神经网络中;(2-4)经过第一时刻递归神经网络的计算输出第一预测数据;根据第一预测数据得到该时刻递归神经网络的字词识别结果,将该结果定义为:第一识别结果;2CN105654127A权利要求书2/2页(2-5)并将第一识别结果转化成对应的向量数据;(2-6)将第一数据,第一预测数据以及向量化的第一识别结果作为第二时刻递归神经网络的输入数据,经过递归神经网络的计算输出第二预测数据,并得到由第二预测数据对应的第二识别结果;(2-7)将第一数据以及第二预测数据作为第三时刻递归神经网络的输入数据;依次递归,直到达到设定的递归次数时,终止计算。6.如权利要求5所述的方法,其特征在于:在准备训练样本和开发样本时,将样本图片进行归一化处理,所述归一化处理包括:设置待识别图片允许的最长字数或者词数。7.如权利要求6所述的方法,其特征在于:对进行归一化处理的样本进行人工标注时,当样本图片中包含的字数少于设置的最长字数时,使用设定的标记符将样本图片中的字数补齐。3CN105654127A说明书1/6页基于端到端的图片文字序列连续识别方法技术领域[0001]本发明涉及图像文字识别领域,特别涉及基于端到端的图片文字序列连续识别方法。背景技术[0002]随着社会的发展,产生了大量对古籍、文档、票据、名片等纸质媒体数字化的需求,这里的数字化不仅仅限于使用扫描仪或者相机进行“照片化”,更重要的是将这些纸质文件转化成以可读、可编辑的文档来进行存储,实现这一过程需要对扫描出的图片进行图像文字识别,而传统的图像文字识别为光学文字识别(OCR),光学文字识别在将待识别纸质文件扫描成电子图像的基础上进行识别。但是考虑到扫描效果的好坏、纸质文件本身的品质(别如印刷质量、字体清晰度,字体规范度等)、内容布局(文字的排列情况,比普通文本与表格文