预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115203445A(43)申请公布日2022.10.18(21)申请号202210855628.4G06F16/35(2019.01)(22)申请日2022.07.20G06F40/216(2020.01)G06F40/289(2020.01)(71)申请人平安科技(深圳)有限公司地址518000广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼(72)发明人朱运乔建秀(74)专利代理机构深圳市沃德知识产权代理事务所(普通合伙)44347专利代理师高杰于志光(51)Int.Cl.G06F16/48(2019.01)G06F16/41(2019.01)G06F16/31(2019.01)G06F16/33(2019.01)权利要求书2页说明书12页附图2页(54)发明名称多媒体资源搜索方法、装置、设备及介质(57)摘要本发明涉及人工智能技术领域,提供了一种多媒体资源搜索方法、装置、设备及介质。该方法包括从文本中提取文字内容,得到文本片段并存储至预设数据库,对文本片段进行分词得到第一关键词;根据第一关键词构建倒排索引表,将各文本片段的分类标签存储至倒排索引表以构建多媒体库;从查询请求中提取第二关键词,根据倒排索引表和第二关键词,在多媒体库中搜索与第二关键词相关联的第一关键词的分类标签,根据分类标签从预设数据库读取文本片段;对多个文本片段之间的相似度进行评分和排序,根据排序顺序选取文本片段渲染成对应文本并输出至用户端。本发明还涉及区块链技术领域,上述第一关键词、第二关键词还可以存储于一区块链的节点中。CN115203445ACN115203445A权利要求书1/2页1.一种多媒体资源搜索方法,其特征在于,所述方法包括:分别从多种不同类型的文本中提取文字内容,得到一个或多个文本片段并存储至预设数据库,对每个文本片段进行分词得到各文本片段的第一关键词;根据所述第一关键词构建词搜索的倒排索引表,将所述各文本片段的分类标签存储至所述倒排索引表以构建多媒体库;接收用户端发送的查询请求,从所述查询请求中提取第二关键词,根据所述倒排索引表和所述第二关键词,在所述多媒体库中搜索与所述第二关键词相关联的第一关键词对应的文本片段的分类标签,根据检索得到的分类标签从所述预设数据库读取相应的文本片段;对所述多个文本片段之间的相似度进行评分,将得到后的评分值按预设的排序顺序进行排序,根据排序顺序选取预设数量的文本片段渲染成对应文本并输出至所述用户端。2.如权利要求1所述的多媒体资源搜索方法,其特征在于,所述多种不同类型的文本包括网页文本、PDF文本、图片文本、视频文本,所述分别从多种不同类型的文本中提取文字内容,得到一个或多个文本片段并存储至预设数据库,包括:对每种类型的文本划分为格式部分和文字内容部分,对所述文字内容部分执行片段划分,得到一个或多个文本片段并存储至预设数据库。3.如权利要求1所述的多媒体资源搜索方法,其特征在于,所述对每个文本片段进行分词得到各文本片段的第一关键词,包括:根据预设的分词算法,对每个文本片段的长文本句子进行划分,得到多个词组;计算相邻词组之间的相似度值,将相似度值小于预设阈值的词组作为第一关键词。4.如权利要求1所述的多媒体资源搜索方法,其特征在于,在所述根据所述第一关键词构建词搜索的倒排索引表之后,该方法还包括:统计所述第一关键词在对应的文本片段出现的词频值;将所述词频值与预设词频值比对,若所述词频值大于或等于预设词频值,则将所述第一关键词填充至所述倒排索引表内的高频词队列;若所述词频值小于预设词频值,则将所述第一关键词填充至所述倒排索引表内的低频词队列。5.如权利要求1所述的多媒体资源搜索方法,其特征在于,在所述将所述各文本片段的分类标签存储至所述倒排索引表以构建多媒体库之前,该方法还包括:读取每个文本片段的第一关键词的文本序列,将所述文本序列输入预设分类模型进行标记嵌入,得到词向量特征;根据所述词向量特征,从所述预设分类模型的标签模块匹配出所述文本片段的分类标签,将所述分类标签与所述文本片段的第一关键词建立映射关系。6.如权利要求1所述的多媒体资源搜索方法,其特征在于,所述从所述查询请求中提取第二关键词,包括:对查询请求的信息进行切词,得到多个分词;根据预先构建的字典词表生成字典树,将所述多个分词输入所述字典树进行遍历,得到所述第二关键词。7.如权利要求1所述的多媒体资源搜索方法,其特征在于,所述根据所述倒排索引表和2CN115203445A权利要求书2/2页所述第二关键词,在所述多媒体库中搜索与所述第二关键词相关联的第一关键词对应的文本片段的分类标签,根据检索得到的分类标签从所述预设数据库读取相应的文本片段,包括:将所述第二关键词输入所