预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111985525A(43)申请公布日2020.11.24(21)申请号202010622446.3(22)申请日2020.06.30(71)申请人上海海事大学地址201306上海市浦东新区临港新城海港大道1550号(72)发明人龚沛朱刘晋栾翠菊(74)专利代理机构上海互顺专利代理事务所(普通合伙)31332代理人成秋丽(51)Int.Cl.G06K9/62(2006.01)G06K9/32(2006.01)G06K9/42(2006.01)G06N3/04(2006.01)权利要求书1页说明书8页附图4页(54)发明名称基于多模态信息融合处理的文本识别方法(57)摘要本发明披露一种基于多模态信息融合处理的文本识别方法。本发明中的多模态信息,包括图像信息和语意信息。在图像信息方面,选用胶囊网络提取像素特征;在语意信息方面,通过引入预处理语言模型构建语意胶囊模块,可以根据文本中前一时刻的字符,预测出下一个字符,为模型提供语意特征;在融合阶段中本发明对胶囊神经网络进行轻量化并对其内部的动态路由算法进行优化,使得在保留网络模型的识别精度的同时有效降低网络中神经元的数量,减少了网络的空间占用,提升运算速度。本发明提出的基于多模态信息融合处理的文本识别方法有效提高了字符文本的识别准确率,并在大角度旋转字符以及相似字符等识别难点上有了较大突破。CN111985525ACN111985525A权利要求书1/1页1.一种基于多模态信息融合处理的文本识别方法,其特征在于包含以下步骤:步骤1:制作文本图像数据集Affined_Chars-74K,并将数据集分为训练集,验证集和测试集;所述Affined_Chars-74K数据集是在标准数据Chars-74K上使用仿射变换进行扩充所得,其中包括旋转字符,缩放字符,平移字符和相似字符;步骤2:使用卷积神经网络及胶囊神经网络抽取图片字符中的像素笔画特征,构成图像胶囊;步骤3:构建语意胶囊,根据前t-1个时刻的输入预测第t时刻的各个字符出现概率,从而为识别提供上下文语意信息;所述语意胶囊是由多层双向长短期记忆(LSTM)网络构建语言模型所得,由于LSTM网络具有记忆功能,网络可以根据之前t-1个时刻的输入预测第t时刻的各个字符的出现概率;步骤4:将步骤2中的图像胶囊和步骤3中的语意胶囊通过维度变换转换成统一尺寸进行拼接,并通过以下步骤降低模块的网络参数量,使模块轻量化:步骤4.1:输入:I层胶囊路由循环次数r;步骤4.2:对于所有I层胶囊i计算:步骤4.3:对于所有I层胶囊i计算:步骤4.4:对于所有I+1层胶囊j计算:Vj=squash(Sj);步骤4.5:对于所有I层胶囊i和I+1层胶囊j计算:步骤4.6:重复2-5,循环r次;步骤4.7:输出:I+1层胶囊Vj;其中i为低层胶囊,j为高层胶囊,表示低层胶囊i对所有高层胶囊j的贡献,为低层胶囊向量与高层胶囊向量之间的相似度,cij为耦合系数,sj为高层胶囊j的输出向量,vj由sj经过挤压函数squash()运算后得到,目的是将向量的长度控制在0到1之间;步骤5:构造分类器:对步骤4中路由运算的结果求取二范式,经由全连接层Softmax函数得到图片文本最终识别结果;二范式公式如下:其中v表示为步骤4中路由运算的结果。2CN111985525A说明书1/8页基于多模态信息融合处理的文本识别方法技术领域[0001]本发明涉及结合计算机视觉的光学字符识别,具体涉及一种基于多模态信息融合处理的文本识别方法。背景技术[0002]计算机视觉的主要研究目标就是如何模拟人类,使计算机可以借助光学信号,实现人类借助视觉信息可以实现的一些行为。光学字符识别问题是其中最重要的子课题之一,这一技术的应用前景十分广泛,几乎渗透了日常生活的方方面面。[0003]对于光学字符识别技术的研究,早期是基于规则和模板匹配的传统算法,后来逐步发展成基于机器学习或是基于深度学习。目前,主流的字符识别技术是使用卷积神经网络来提取图片中的像素特征用于文本字符识别。卷积神经网络中的卷积层对输入图像中存在的像素特征进行提取,抽象,组成高维的抽象特征图,池化层对特征图进行下采样,保留关键信息,最后整合关键特征信息对图像中字符进行分类识别。然而,池化层在降低参数运算量的同时将字符的位置,姿态等有用信息也一并丢弃,导致卷积神经网络对于字符图片的识别高度依赖训练集,对于字符的位置变换以及大小高度敏感,不具有对识别对象的普遍迁移性,适用能力受到了限制。[0004]胶囊神经网络弥补了卷积网络对于位置,姿态信息的丢失,其提出的动态路由算法提供了一种新的基于聚类的思想代替池化层完成特征整合。然而其网络结构复杂,参数繁多,限制了它在实际项目中