一种基于音乐-图像语义关系的跨模态匹配方法-豆柴文库

一种基于音乐-图像语义关系的跨模态匹配方法.pdf

2023-12-05

10金币

616KB

8页

葫芦****io

实名认证

内容提供者

1/8

2/8

3/8

4/8

5/8

6/8

7/8

8/8

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108920648A(43)申请公布日2018.11.30(21)申请号201810713873.5(22)申请日2018.07.03(71)申请人四川大学地址610065四川省成都市武侯区一环路南一段24号(72)发明人杨震群魏骁勇于超王泽荣张世西吕华富(74)专利代理机构成都弘毅天承知识产权代理有限公司51230代理人吴静宜(51)Int.Cl.G06F17/30(2006.01)G06N3/08(2006.01)权利要求书1页说明书4页附图2页(54)发明名称一种基于音乐-图像语义关系的跨模态匹配方法(57)摘要本发明公开一种基于音乐-图像语义关系的跨模态匹配方法，涉及音乐和图像匹配方法技术领域，包括以下步骤：采集图像和音乐成对数据，并对数据进行特征提取后得到训练集；利用训练集特征训练深度神经网络模型得到跨模关系模型；根据跨模关系模型对待预测图像进行音乐推荐。解决了现有图像音乐匹配关系建模效果不佳，推荐的音乐内涵与图像内涵匹配度低的问题。CN108920648ACN108920648A权利要求书1/1页1.一种基于音乐-图像语义关系的跨模态匹配方法，其特征在于,包括以下步骤：S1:采集图像和音乐成对数据，并对数据进行特征提取后得到训练集；S2：利用训练集特征训练深度神经网络模型得到跨模关系模型；S3:根据跨模关系模型对待预测图像进行音乐推荐。2.根据权利要求1所述一种基于音乐-图像语义关系的跨模态匹配方法，其特征在于,所述步骤S1具体步骤如下：S101：采集图像数据以及能够表达图像内涵的音乐数据；S102：利用VGG-16模型和DeepSentiBank模型分别提取图像数据的物体识别语义特征和视觉情感语义特征；S103：利用AudioSet模型提取音乐数据的音频语义特征；S104：将物体识别语义特征和视觉情感语义特征以及音频语义特征成对关联后得到训练集。3.根据权利要求1所述一种基于音乐-图像语义关系的跨模态匹配方法，其特征在于,所述深度神经网络模型包括依次设置的1个输入层、3个隐藏层和1个输出层，每一层神经元的个数是上一层神经元个数的一半，输入层维度为C，输出层维度为M。4.根据权利要求3所述一种基于音乐-图像语义关系的跨模态匹配方法，其特征在于,所述步骤S2具体步骤如下：S201：将训练集中物体识别语义特征输入到深度神经网络模型1，通过深度神经网络模型1前向计算获得预测音频语义特征1；S202：将训练集中视觉情感语义特征输入到深度神经网络模型2，通过深度神经网络模型2前向计算获得预测音频语义特征2；S203：分别计算预测音频语义特征1和预测音频语义特征2与训练集中的音频语义特征的误差，通过反向传播更新深度神经网络模型1和深度神经网络模型2的权重；S204：重复步骤S201～S203，直到深度神经网络模型1和深度神经网络模型2收敛，得到跨模关系模型1和跨模关系模型2。5.根据权利要求1所述一种基于音乐-图像语义关系的跨模态匹配方法，其特征在于,所述步骤S3具体步骤如下：S301：提取待预测图像的物体识别语义特征、视觉情感语义特征以及音乐库中每首音乐的音频语义特征；S302：将物体识别语义特征和视觉情感语义特征分别输入跨模关系模型1和跨模关系模型2得到待预测音乐的音频语义特征1和待预测音乐的音频语义特征2，计算音乐库中每首音乐的音频语义特征与待预测音乐的音频语义特征1和待预测音乐的音频语义特征2的相似度得分1和相似度得分2；S303：采用加权平均的方法综合相似度得分1和相似度得分2后得到平均得分；S304：根据平均得分大小对音乐库中音乐进行排序，生成音乐推荐列表。2CN108920648A说明书1/4页一种基于音乐-图像语义关系的跨模态匹配方法技术领域[0001]本发明涉及音乐和图像匹配方法技术领域，尤其涉及一种基于音乐-图像语义关系的跨模态匹配方法。背景技术[0002]目前，音乐应用软件，对于音乐的智能推荐多数是根据用户行为数据以及协同过滤方法进行，是一种被动推荐的方式，而对于音乐的主动获取，大多需要输入歌曲相关元信息，如曲名、艺术家或专辑名等。[0003]而基于图像内容进行音乐推荐的方式则可以主动的获取符合实时场景与心情的音乐，能够更能抒发自己内心的情感，例如在旅行的途中，看到震撼人心的自然景色，想给此情此景配上适合的音乐，但是却不知选取怎样的音乐，则可通过图像拍摄，进而进行音乐推荐。上述的推荐过程即音乐与图像的匹配过程，现有的图像和音乐匹配方法主要提取音乐和图像两个模态的传统低层特征，再通过关系模型建立两者的联系，此方法对于音乐和图像的抽象匹配关系来说，存在建模效果不佳，推荐的音乐内涵与图像内涵匹配度低的问题。发明内容[0004]本发明的

相关资料

一种基于音乐-图像语义关系的跨模态匹配方法.pdf

本发明公开一种基于音乐‑图像语义关系的跨模态匹配方法，涉及音乐和图像匹配方法技术领域，包括以下步骤：采集图像和音乐成对数据，并对数据进行特征提取后得到训练集；利用训练集特征训练深度神经网络模型得到跨模关系模型；根据跨模关系模型对待预测图像进行音乐推荐。解决了现有图像音乐匹配关系建模效果不佳，推荐的音乐内涵与图像内涵匹配度低的问题。

2023-12-05

616KB

基于多模态语义匹配的图像风格迁移系统及方法.pdf

本发明揭示了一种基于多模态语义匹配的图像风格迁移系统及方法，包括内容图像输入模块、风格信息输入模块、风格图像向量库、文本图像检索模块、图像风格迁移模块和结果输出模块。本发明提供的多模态语义匹配的图像风格迁移系统及方法，实现了支持文本驱动和图像驱动两种模态数据提供风格信息的图像风格迁移，在图像风格迁移模块中利用注意力机制和插值操作逐渐调整风格图像特征分布与内容图像特征分布对齐，使得最终的风格化结果的内容语义区域和风格语义区域是相互匹配的，在保证风格化结果内容结构完整性的同时获得更好的风格化效果。

2023-06-07

700KB

基于跨模态置信度感知的图像文本匹配方法.pdf

本发明涉及跨模态检索领域，公开了一种基于跨模态置信度感知的图像文本匹配方法，以待匹配文本为桥梁，参考图像‑文本的全局语义，来衡量图像区域在待匹配文本中被描述的可信程度。并且，本发明在聚合区域‑单词匹配对的局部对齐信息以得到图文整体相关性时，根据匹配置信度来过滤掉与全局图像‑文本语义不一致的局部区域‑单词匹配对，更准确地度量的图文相关性，提升跨模态检索性能。

2023-08-12

789KB

基于语义关系图的跨模态张量融合网络的图像文本检索.pptx

汇报人：CONTENTSPARTONEPARTTWO跨模态检索的背景和意义跨模态张量融合网络的基本概念跨模态张量融合网络的应用场景PARTTHREE语义关系图的构建方法基于语义关系图的图像特征提取基于语义关系图的文本特征提取图像与文本的匹配与检索PARTFOUR输入数据的预处理张量融合层的构建与优化语义关系图的构建与优化检索结果的排序与输出PARTFIVE实验数据集介绍实验方法与评价指标实验结果展示与分析结果与现有技术的比较PARTSIX基于语义关系图的跨模态张量融合网络的优势与不足对未来研究的建议与展望

2024-10-06

373KB

基于语义关系图的跨模态张量融合网络的图像文本检索.pptx

,CONTENTS01.02.跨模态检索的背景和意义跨模态张量融合网络的基本原理跨模态张量融合网络的应用场景03.语义关系图的基本概念语义关系图在图像文本检索中的应用基于语义关系图的图像文本检索的优势04.图像和文本数据的预处理构建语义关系图的方法跨模态张量融合的算法流程实验结果和性能评估05.当前研究的局限性和挑战未来研究方向和可能的改进跨模态张量融合网络的应用前景感谢您的观看！

2024-10-09

3.9MB