预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115273810A(43)申请公布日2022.11.01(21)申请号202210777466.7G06V30/41(2022.01)(22)申请日2022.07.04G06N3/04(2006.01)G06N3/08(2006.01)(71)申请人成都理工大学地址610059四川省成都市成华区二仙桥东三路1号(72)发明人王丽汤影缪昊洋(74)专利代理机构成都市熠图知识产权代理有限公司51290专利代理师邓昉(51)Int.Cl.G10L13/08(2013.01)G10L25/30(2013.01)G10L13/047(2013.01)G06V10/82(2022.01)G06V30/19(2022.01)权利要求书2页说明书7页附图3页(54)发明名称基于深度学习的多模态图像语音解读方法和系统(57)摘要本发明公开了一种基于深度学习的多模态图像语音解读方法和系统,该方法包括搭建图像描述神经网络并训练得到图像描述神经网络模型;搭建语音转换神经网络并训练得到语音转换神经网络模型;获取待语音解读的图像,经图像描述神经网络模型翻译成文字序列、再经语音转换神经网络模型输出与文字序列对应的语音音频。本发明用于实现对无文字图片内容的理解并用语音的方式对图片中存在的对象及多个对象之间的关系、行为进行解读。有助于视觉障碍者对身边环境的实时了解,有助于该类人群的日常生活。同时,上述方案可以应用于幼儿教育,在小孩学习身边事物的过程中起辅助作用,也可应用于娱乐场所,应用范围广,具有很高的实际使用价值。CN115273810ACN115273810A权利要求书1/2页1.一种基于深度学习的多模态图像语音解读方法,其特征在于:包括以下步骤;(1)搭建图像描述神经网络并训练得到图像描述神经网络模型,包括步骤(11)‑(14);(11)构建数据集;在不同场景下进行随机采集多张图片并预处理,得到样本图像,将样本图像由5人分别用1句话描述图片内容,所述图片内容包括主要对象的类别、主要对象运动状态,对象的类别、和/或主要对象与对象的关系;(12)将样本图像对应5句话作为其标签,得到训练样本,将所有训练样本存入数据库,得到训练数据集;(13)构建图像描述神经网络,所述图像描述神经网络模型采用Encoder‑Decoder结构,其中Encoder部分采用CNN来提取训练样本的图像特征,decoder部分采用LSTM将5句话训练成1段文字序列,所述文字序列包含所有图片内容;(14)依次将训练样本送入图像描述神经网络,输出训练样本对应的1段文字序列,直到文字序列与图片内容匹配,得到训练好的图像描述神经网络模型;(2)搭建语音转换神经网络,将(13)输出的文字序列输入到该网络中训练,以该文字序列对应的语音音频为期望输出,得到训练好的语音转换神经网络模型;(3)获取待语音解读的图像,经图像描述神经网络模型翻译成文字序列、再经语音转换神经网络模型输出与文字序列对应的语音音频。2.根据权利要求1所述的基于深度学习的多模态图像语音解读方法,其特征在于:还包括步骤(4),将步骤(3)得到的文字序列和语音音频反馈给用户。3.根据权利要求1所述的基于深度学习的多模态图像语音解读方法,其特征在于:步骤(11)中预处理为:先将图像使用双三次插值法进行缩放,缩放尺寸统一为224×224;再用高斯滤波去除高斯白噪声;最后将图像的RGB三通道进行归一化操作。4.根据权利要求1所述的基于深度学习的多模态图像语音解读方法,其特征在于:所述步骤(12)中,将所有训练样本存入数据库,具体为:按场景将数据库分为与场景一一对应的数个部分,每个部分分别存储一个场景的图像数据。5.根据权利要求1所述的基于深度学习的多模态图像语音解读方法,其特征在于:所述步骤(13)中,将5句话训练成1段文字序列具体为:对每句话,分别将其中的每个字按在语料库中的位置进行过编码,得到5段编码;对每句话,统计其每个字出现的位置;通过LSTM预测每个字出现的顺序和概率,重新生成一段文字序列。6.根据权利要求1所述的基于深度学习的多模态图像语音解读方法,其特征在于:所述Encoder部分中的CNN中的激活函数采用Mish激活函数。7.根据权利要求1所述的基于深度学习的多模态图像语音解读方法,其特征在于:所述语音转换神经网络采用tacotron2模型,包括声谱预测网络和声码器;所述声谱预测网络用于将文字序列中每个字转化为对应的词向量,再将词向量预测成对应的mel频谱图;所述声码器应用于将mel频谱图作为输入,mel频谱图对应的音频时域波形作为期望输出,进行频域和时域上的信号转换,得到语音音频。8.一种基于深度学习的多模态图像语音解读系统,其特征在于:包括图像采集单元、图