预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

本发明属于计算机视觉和自然语言处理领域结合的跨模态任务技术领域。技术方案是:基于多角度语义理解与自适应双通道的视觉问答方法,包括以下步骤:步骤1;对输入的图像进行预处理,通过使用对象检测模块提取输入图像中显著区域的视觉特征与几何特征;步骤2;对于问题文本的嵌入,使用空格与标点符号的方法将句子分割成单词(数字或基于数字的单词也被当做是一个单词);接下来采用预训练的词向量模型将单词执行向量化表示;最后将词向量表示通过长短时记忆网络,获取最后一个时间步上的状态,得到问题特征。该方法能够使得训练出来的模型更具有鲁棒性;面对更复杂的视觉场景具有较强的泛化能力,提升答案的语义性,提升视觉问答模型的准确率。