预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110990597A(43)申请公布日2020.04.10(21)申请号201911315961.0(22)申请日2019.12.19(71)申请人中国电子科技集团公司信息科学研究院地址100086北京市海淀区四道口北街36号院4号楼申请人中电科大数据研究院有限公司(72)发明人张淯舒张德钱茛南方赴洋张志华曹扬(74)专利代理机构北京中知法苑知识产权代理有限公司11226代理人李明赵吉阳(51)Int.Cl.G06F16/432(2019.01)权利要求书2页说明书6页附图2页(54)发明名称基于文本语义映射的跨模态数据检索系统及其检索方法(57)摘要一种基于文本语义映射的跨模态数据检索系统及其检索方法,该检索系统包括数据域、离线域、语义域以及在线域;数据域包括文本数据集和非文本数据集;离线域包括标签提取模块、文本语义提取模块、数据标注模块、和非文本语义模型训练模块;所述语义域包括文本语义空间;在线预包括文本语义提取模块、非文本语义提取模块、查询表达模块、相关度计算模块、和相关度排序模块。本发明将非文本数据语义映射至文本语义空间,有助于提高系统数据标注、模型训练以及检索准确率评估的效率与可操作性,减少了非本文数据语义映射次数,极大地保留了数据的原始语义,能够有效提高数据检索准确率。CN110990597ACN110990597A权利要求书1/2页1.一种基于文本语义映射的跨模态数据检索系统,其特征在于:该检索系统包括数据域、离线域、语义域以及在线域;其中所述数据域包括文本数据集(100)和非文本数据集(110、120、130、140),各数据集存储对应模态数据内容,用于与离线域中的处理、标注和训练提供原始数据支持;所述离线域包括标签提取模块(101)、文本语义提取模块(102)、数据标注模块(111)、非文本语义模型训练模块;所述标签提取模块(101),用于对文本数据集(100)中样本数据进行处理,从中提取出应用领域内具有代表性语义的文本形式的标签集,以对非文本数据进行标注;所述文本语义提取模块(102),用于通过文本语义模型,对标签进行处理,将标签、标签集按照语义转换为固定长度的实数向量,作为对应标签、标签集在语义域(103)中的表示;所述数据标注模块(111),用于通过自动或人工方式,利用标签提取模块(101)生成的标签集中一个或多个标签描述非文本数据集(110、120、130、140)中数据的语义,并将数据对应标签、标签集通过文本语义提取模块(102)获得的语义向量记录为对应非文本数据的语义表示,以此获取非文本数据语义模型训练数据;所述非文本语义模型训练模块(112、122、132、142),用于利用数据标注模块(111)提供的训练数据,对相应模态的非文本模态语义模型(232)进行训练,使其能够将非文本数据转化为文本语义向量,从而将非本文数据语义映射至文本语义空间;所述语义域包括文本语义空间(103),用于数据内在含义的逻辑表示,在系统中具体为固定长度的实数向量,所述文本语义空间(103)通过文本数据构建,非文本数据通过相应模型映射至该文本语义空间,以实现跨模态数据相关度分析、处理与计算;所述在线预包括文本语义提取模块(104)、非文本语义提取模块(114、124、134、144)、查询表达模块(145)、相关度计算模块(135)、和相关度排序模块(125)。所述文本语义提取模块(104)和非文本语义提取模块(114、124、134、144),一方面用于将对应模态的查询请求转换为语义空间中文本语义向量表示,另一方面用于将待检索的数据内容转换为语义空间中的本文语义向量表示。所述查询表达模块(145),用于将表示查询请求语义向量、表示待检索数据内容的语义向量集合以及其他查询约束条件整合后提供给相关度计算模块(135)处理。所述相关度计算模块(135),用于按照查询约束条件要求,分别计算待检索数据语义向量与查询请求语义向量的相关度。所述相关排序模块(125),用于按照待检索数据语义向量与查询请求语义向量的相关度高低,对待检索数据进行排序,并按照查询约束条件,返回相似度最高的若干项数据。2.根据权利要求1所述的跨模态数据检索系统,其特征在于:所述非文本数据集(110、120、130、140)包括图片数据集(110)、音频数据集(120)、视频数据集(130)以及其他模态数据集(140)。3.根据权利要求2所述的跨模态数据检索系统,其特征在于:所述非文本语义模型训练模块包括图片语义模型训练模块(112)、音频语义模型训练模块(122)、视频语义模型训练模块(132)以及其他语义模式训练模块(142)。4.根据权利要求3所述的跨模态数据检索系统,其特征在于