预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114298007A(43)申请公布日2022.04.08(21)申请号202111599130.8(22)申请日2021.12.24(71)申请人北京字节跳动网络技术有限公司地址100041北京市石景山区实兴大街30号院3号楼2层B-0035房间(72)发明人陈冉李国建刘洋洪进栋(74)专利代理机构北京开阳星知识产权代理有限公司11710代理人吴崇(51)Int.Cl.G06F40/194(2020.01)G06F40/258(2020.01)G06F40/216(2020.01)G06F40/289(2020.01)G06K9/62(2022.01)权利要求书2页说明书13页附图3页(54)发明名称一种文本相似度确定方法、装置、设备及介质(57)摘要本公开实施例涉及一种文本相似度确定方法、装置、设备及介质,其中该方法包括:获取两个目标文本,目标文本为待处理多媒体的文本信息;确定每个目标文本的结构化标签;根据每个目标文本的结构化标签确定两个目标文本之间的相似度。采用上述技术方案,通过为非结构化的文本添加结构化标签,进而可以根据结构化标签确定两个非结构化的文本的相似度,结合不同粒度的结构化特征进行相似度确定,提升结果的置信度,进而有利于后续数据分析,避免出现分析不置信的问题。CN114298007ACN114298007A权利要求书1/2页1.一种文本相似度确定方法,其特征在于,包括:获取两个目标文本,所述目标文本为待处理多媒体的文本信息;确定每个所述目标文本的结构化标签;根据每个所述目标文本的结构化标签确定两个所述目标文本之间的相似度。2.根据权利要求1所述的方法,其特征在于,所述结构化标签包括主题标签和内容标签,所述确定每个所述目标文本的结构化标签,包括:根据预先构建的主题聚类模型确定所述目标文本的结构化标签中的主题标签;根据所述目标文本、预设名称集合和预设类型集合,确定所述目标文本的结构化标签中的内容标签。3.根据权利要求2所述的方法,其特征在于,所述主题标签包括主题标识、主题概率分数和主题含义词语。4.根据权利要求2所述的方法,其特征在于,根据所述目标文本、预设名称集合和预设类型集合,确定所述目标文本的结构化标签中的内容标签,包括:提取所述目标文本的关键词,得到第一关键词集合;确定所述目标文本的主题标签对应的多个主题含义词语,将所述多个主题含义词语组合得到第二关键词集合;根据所述第一关键词集合、所述第二关键词集合、所述预设名称集合以及所述预设类型集合,确定所述目标文本的内容标签。5.根据权利要求4所述的方法,其特征在于,所述内容标签包括名称、关键词标签和类型,根据所述第一关键词集合、所述第二关键词集合、所述预设名称集合以及所述预设类型集合,确定所述目标文本的内容标签,包括:根据所述预设名称集合在所述第二关键词集合中进行匹配,得到所述目标文本的内容标签中的名称;将所述第一关键词集合和所述第二关键词集合中的相同词语确定为所述目标文本的内容标签中的关键词标签;根据所述预设类型集合在所述第一关键词集合中进行匹配,得到所述目标文本的内容标签中的类型。6.根据权利要求1所述的方法,其特征在于,根据每个所述目标文本的结构化标签确定两个所述目标文本之间的相似度,包括:判断两个所述目标文本的主题标签中的主题标识以及内容标签中的名称是否均相同;当确定两个所述目标文本的主题标签以及名称均相同,则确定两个所述目标文本之间的相似度分数,根据所述相似度分数确定两个所述目标文本是否相似。7.根据权利要求6所述的方法,其特征在于,确定两个所述目标文本之间的相似度分数,包括:将两个所述目标文本的内容标签中相同的关键词标签确定为共同关键词标签;确定所述共同关键词标签分别在两个所述目标文本上的共同关键词分数,并确定所述共同关键词标签的数量;针对每个所述目标文本,将该目标文本的主题概率分数、所述共同关键词标签在该目标文本下的共同关键词分数以及所述共同关键词标签的数量的乘积确定为该目标文本的2CN114298007A权利要求书2/2页单相似度分数;将两个所述目标文本的两个单相似度分数之和确定为相似度分数。8.根据权利要求7所述的方法,其特征在于,确定所述共同关键词标签分别在两个所述目标文本上的共同关键词分数,包括:将所述共同关键词标签中的多个关键词进行两两组合,得到多个关键词组;针对每个所述关键词组,确定其在每个所述目标文本上的关键词分数;针对每个所述目标文本,将多个所述关键词组在该目标文本的关键词分数之和确定为该目标文本的共同关键词分数。9.根据权利要求8所述的方法,其特征在于,针对每个所述关键词组,确定其在每个所述目标文本上的关键词分数,包括:将每个所述目标文本确定为待处理文本;