基于多模态信息融合处理的文本识别方法.pdf
努力****元恺
亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
基于多模态信息融合处理的文本识别方法.pdf
本发明披露一种基于多模态信息融合处理的文本识别方法。本发明中的多模态信息,包括图像信息和语意信息。在图像信息方面,选用胶囊网络提取像素特征;在语意信息方面,通过引入预处理语言模型构建语意胶囊模块,可以根据文本中前一时刻的字符,预测出下一个字符,为模型提供语意特征;在融合阶段中本发明对胶囊神经网络进行轻量化并对其内部的动态路由算法进行优化,使得在保留网络模型的识别精度的同时有效降低网络中神经元的数量,减少了网络的空间占用,提升运算速度。本发明提出的基于多模态信息融合处理的文本识别方法有效提高了字符文本的识别
基于多模态特征融合的信息推荐方法、装置及处理器.pdf
本申请实施例提供一种基于多模态特征融合的信息推荐方法、装置及处理器,属于人工智能技术领域。方法包括:获取目标对象的音视频数据及个性化信息;依据音视频数据提取目标对象的多模态特征信息,多模态特征信息包括图像特征信息、语音信号特征信息及文本特征信息;基于多模态特征信息及个性化信息向目标对象推荐对应的目标信息。本申请通过获取用户的音视频数据并依据获取的音视频数据进行多模态特征的提取,基于结合用户的图像特征及语音特征,能够有效加强用户的动态表征能力,从而克服用户的静态属性特征较少导致无法准确识别用户真实意图的不利
基于多语义多模态信息的行为识别方法及装置.pdf
本发明公开了一种基于多语义多模态信息的行为识别方法及装置,该方法包括:通过摄像设备获取视频数据集合,并根据光流算法对视频数据集合中的每一个视频数据的帧数据集合进行计算,得到帧数据集合中每一个行为动作的关键帧数据以及关键帧数据的光流信息,将视频数据集合中的所有视频数据的关键帧数据以及关键帧数据的光流信息输入至深度学习网络,并通过深度学习网络提取出所有视频数据的初始特征值集合,将初始特征值集合输入至对应的语义识别网络,通过语义识别网络提取出对应的语义特征信息,并将语义特征信息输入至行为识别网络,通过行为识别网
一种基于全局信息融合的多模态医学图像融合方法.pdf
本发明公开了一种基于全局信息融合的多模态医学图像融合方法,其步骤包括:1、对原始多个模态的医学图像进行色彩空间转换和图像剪切的预处理;2、建立在多个尺度通过融合模块进行交互的模态分支网络,并建立由Transformer构成的融合模块来合并多模态特征信息;3、建立重构模块,从多尺度的多模态特征合成融合图像;4、在公开数据集上训练并评估上述模型;4、利用训练好的模型实现医学图像融合任务。本发明通过Transformer融合模块和交互式模态分支网络能充分地融合多模态的语义信息,实现细粒度的融合效果,不仅很好地保
基于多模态信息融合的轮椅机械手系统.pdf
基于多模态信息融合的轮椅机械手系统模拟环境有干扰状态下,人体搜索目标、意图判定、接近目标并准确抓取目标的过程。所述基于多模态信息融合的轮椅机械手系统主要包括多模态信息采集系统a、信息处理融合系统b、决策控制系统c以及执行系统d组成。所述多模态信息采集系统a实现人体多模态信息与周边环境信息采集;所述信息处理融合系统b实现人体意图的判定并最终将特征信息融合;所述决策控制系统c实现对多模态信息采集系统a和信息处理融合系统b采集、预处理信息的综合处理,生成决策信息;所述执行系统d由差动轮椅14和机械臂15组成,实