基于多模态信息融合处理的文本识别方法-豆柴文库

基于多模态信息融合处理的文本识别方法.pdf

2023-11-13

10金币

1.2MB

14页

努力****元恺

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共14页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111985525A(43)申请公布日2020.11.24(21)申请号202010622446.3(22)申请日2020.06.30(71)申请人上海海事大学地址201306上海市浦东新区临港新城海港大道1550号(72)发明人龚沛朱刘晋栾翠菊(74)专利代理机构上海互顺专利代理事务所(普通合伙)31332代理人成秋丽(51)Int.Cl.G06K9/62(2006.01)G06K9/32(2006.01)G06K9/42(2006.01)G06N3/04(2006.01)权利要求书1页说明书8页附图4页(54)发明名称基于多模态信息融合处理的文本识别方法(57)摘要本发明披露一种基于多模态信息融合处理的文本识别方法。本发明中的多模态信息，包括图像信息和语意信息。在图像信息方面，选用胶囊网络提取像素特征；在语意信息方面，通过引入预处理语言模型构建语意胶囊模块，可以根据文本中前一时刻的字符，预测出下一个字符，为模型提供语意特征；在融合阶段中本发明对胶囊神经网络进行轻量化并对其内部的动态路由算法进行优化，使得在保留网络模型的识别精度的同时有效降低网络中神经元的数量，减少了网络的空间占用，提升运算速度。本发明提出的基于多模态信息融合处理的文本识别方法有效提高了字符文本的识别准确率，并在大角度旋转字符以及相似字符等识别难点上有了较大突破。CN111985525ACN111985525A权利要求书1/1页1.一种基于多模态信息融合处理的文本识别方法，其特征在于包含以下步骤：步骤1：制作文本图像数据集Affined_Chars-74K，并将数据集分为训练集，验证集和测试集；所述Affined_Chars-74K数据集是在标准数据Chars-74K上使用仿射变换进行扩充所得，其中包括旋转字符，缩放字符，平移字符和相似字符；步骤2：使用卷积神经网络及胶囊神经网络抽取图片字符中的像素笔画特征，构成图像胶囊；步骤3：构建语意胶囊，根据前t-1个时刻的输入预测第t时刻的各个字符出现概率，从而为识别提供上下文语意信息；所述语意胶囊是由多层双向长短期记忆(LSTM)网络构建语言模型所得，由于LSTM网络具有记忆功能，网络可以根据之前t-1个时刻的输入预测第t时刻的各个字符的出现概率；步骤4：将步骤2中的图像胶囊和步骤3中的语意胶囊通过维度变换转换成统一尺寸进行拼接，并通过以下步骤降低模块的网络参数量，使模块轻量化：步骤4.1：输入：I层胶囊路由循环次数r；步骤4.2：对于所有I层胶囊i计算：步骤4.3：对于所有I层胶囊i计算：步骤4.4：对于所有I+1层胶囊j计算：Vj＝squash(Sj)；步骤4.5：对于所有I层胶囊i和I+1层胶囊j计算：步骤4.6：重复2-5，循环r次；步骤4.7：输出：I+1层胶囊Vj；其中i为低层胶囊，j为高层胶囊，表示低层胶囊i对所有高层胶囊j的贡献,为低层胶囊向量与高层胶囊向量之间的相似度，cij为耦合系数,sj为高层胶囊j的输出向量，vj由sj经过挤压函数squash()运算后得到，目的是将向量的长度控制在0到1之间；步骤5：构造分类器：对步骤4中路由运算的结果求取二范式，经由全连接层Softmax函数得到图片文本最终识别结果；二范式公式如下：其中v表示为步骤4中路由运算的结果。2CN111985525A说明书1/8页基于多模态信息融合处理的文本识别方法技术领域[0001]本发明涉及结合计算机视觉的光学字符识别，具体涉及一种基于多模态信息融合处理的文本识别方法。背景技术[0002]计算机视觉的主要研究目标就是如何模拟人类，使计算机可以借助光学信号，实现人类借助视觉信息可以实现的一些行为。光学字符识别问题是其中最重要的子课题之一，这一技术的应用前景十分广泛，几乎渗透了日常生活的方方面面。[0003]对于光学字符识别技术的研究，早期是基于规则和模板匹配的传统算法，后来逐步发展成基于机器学习或是基于深度学习。目前，主流的字符识别技术是使用卷积神经网络来提取图片中的像素特征用于文本字符识别。卷积神经网络中的卷积层对输入图像中存在的像素特征进行提取，抽象，组成高维的抽象特征图，池化层对特征图进行下采样，保留关键信息，最后整合关键特征信息对图像中字符进行分类识别。然而，池化层在降低参数运算量的同时将字符的位置，姿态等有用信息也一并丢弃，导致卷积神经网络对于字符图片的识别高度依赖训练集，对于字符的位置变换以及大小高度敏感，不具有对识别对象的普遍迁移性，适用能力受到了限制。[0004]胶囊神经网络弥补了卷积网络对于位置，姿态信息的丢失，其提出的动态路由算法提供了一种新的基于聚类的思想代替池化层完成特征整合。然而其网络结构复杂，参数繁多，限制了它在实际项目中

相关资料

基于多模态信息融合处理的文本识别方法.pdf

本发明披露一种基于多模态信息融合处理的文本识别方法。本发明中的多模态信息，包括图像信息和语意信息。在图像信息方面，选用胶囊网络提取像素特征；在语意信息方面，通过引入预处理语言模型构建语意胶囊模块，可以根据文本中前一时刻的字符，预测出下一个字符，为模型提供语意特征；在融合阶段中本发明对胶囊神经网络进行轻量化并对其内部的动态路由算法进行优化，使得在保留网络模型的识别精度的同时有效降低网络中神经元的数量，减少了网络的空间占用，提升运算速度。本发明提出的基于多模态信息融合处理的文本识别方法有效提高了字符文本的识别

2023-11-13

1.2MB

基于多模态特征融合的信息推荐方法、装置及处理器.pdf

本申请实施例提供一种基于多模态特征融合的信息推荐方法、装置及处理器，属于人工智能技术领域。方法包括：获取目标对象的音视频数据及个性化信息；依据音视频数据提取目标对象的多模态特征信息，多模态特征信息包括图像特征信息、语音信号特征信息及文本特征信息；基于多模态特征信息及个性化信息向目标对象推荐对应的目标信息。本申请通过获取用户的音视频数据并依据获取的音视频数据进行多模态特征的提取，基于结合用户的图像特征及语音特征，能够有效加强用户的动态表征能力，从而克服用户的静态属性特征较少导致无法准确识别用户真实意图的不利

2023-07-24

646KB

基于多语义多模态信息的行为识别方法及装置.pdf

本发明公开了一种基于多语义多模态信息的行为识别方法及装置,该方法包括:通过摄像设备获取视频数据集合,并根据光流算法对视频数据集合中的每一个视频数据的帧数据集合进行计算,得到帧数据集合中每一个行为动作的关键帧数据以及关键帧数据的光流信息,将视频数据集合中的所有视频数据的关键帧数据以及关键帧数据的光流信息输入至深度学习网络,并通过深度学习网络提取出所有视频数据的初始特征值集合,将初始特征值集合输入至对应的语义识别网络,通过语义识别网络提取出对应的语义特征信息,并将语义特征信息输入至行为识别网络,通过行为识别网

2023-04-24

821KB

一种基于全局信息融合的多模态医学图像融合方法.pdf

本发明公开了一种基于全局信息融合的多模态医学图像融合方法,其步骤包括:1、对原始多个模态的医学图像进行色彩空间转换和图像剪切的预处理;2、建立在多个尺度通过融合模块进行交互的模态分支网络,并建立由Transformer构成的融合模块来合并多模态特征信息;3、建立重构模块,从多尺度的多模态特征合成融合图像;4、在公开数据集上训练并评估上述模型;4、利用训练好的模型实现医学图像融合任务。本发明通过Transformer融合模块和交互式模态分支网络能充分地融合多模态的语义信息,实现细粒度的融合效果,不仅很好地保

2023-05-23

基于多模态信息融合的轮椅机械手系统.pdf

基于多模态信息融合的轮椅机械手系统模拟环境有干扰状态下，人体搜索目标、意图判定、接近目标并准确抓取目标的过程。所述基于多模态信息融合的轮椅机械手系统主要包括多模态信息采集系统a、信息处理融合系统b、决策控制系统c以及执行系统d组成。所述多模态信息采集系统a实现人体多模态信息与周边环境信息采集；所述信息处理融合系统b实现人体意图的判定并最终将特征信息融合；所述决策控制系统c实现对多模态信息采集系统a和信息处理融合系统b采集、预处理信息的综合处理，生成决策信息；所述执行系统d由差动轮椅14和机械臂15组成，实

2023-08-29

400KB