预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113609309A(43)申请公布日2021.11.05(21)申请号202110939279.X(22)申请日2021.08.16(71)申请人脸萌有限公司地址英国开曼群岛(72)发明人熊泓宇汪罕高远冯一琦刘宾(74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙)11447代理人李柯莹(51)Int.Cl.G06F16/36(2019.01)G06F40/279(2020.01)权利要求书2页说明书12页附图7页(54)发明名称知识图谱构建方法、装置、存储介质及电子设备(57)摘要本公开涉及一种知识图谱构建方法、装置、存储介质及电子设备。该知识图谱构建方法包括:从目标网页的标题文本中识别出实体概念,并从所述目标网页的主体文本中识别出对应所述实体概念的至少一个实体;根据所述标题文本所属语种的语法分析规则,构建所述标题文本的语法分析树,并从所述语法分析树中确定用于修饰所述实体概念的修饰词;根据所述实体概念、所述修饰词以及所述至少一个实体生成知识图谱。采用本公开的这种方式,无需对目标网页进行结构化处理也能构建准确率和召回率高的知识图谱。CN113609309ACN113609309A权利要求书1/2页1.一种知识图谱构建方法,其特征在于,所述方法包括:从目标网页的标题文本中识别出实体概念,并从所述目标网页的主体文本中识别出对应所述实体概念的至少一个实体;根据所述标题文本所属语种的语法分析规则,构建所述标题文本的语法分析树,并从所述语法分析树中确定用于修饰所述实体概念的修饰词;根据所述实体概念、所述修饰词以及所述至少一个实体生成知识图谱。2.根据权利要求1所述的方法,其特征在于,所述从目标网页的标题文本中识别出实体概念,包括:获取所述目标网页的页面源代码;根据标题标签从所述页面源代码中定位得到所述标题文本;基于预设实体概念词集,从所述标题文本中匹配得到所述实体概念。3.根据权利要求1所述的方法,其特征在于,所述从所述语法分析树中确定用于修饰所述实体概念的修饰词,包括:从所述语法分析树中确定包括所述实体概念的语法子树;确定所述语法子树对应的标题文本片段;将所述标题文本片段中的与所述实体概念距离最近的形容词作为所述修饰词。4.根据权利要求1‑3中任一项所述的方法,其特征在于,所述从所述目标网页的主体文本中识别出对应所述实体概念的至少一个实体,包括:在获取到所述目标网页的页面源代码之后,基于所述页面源代码中的编码标签,生成与所述页面源代码对应的编码标签树;从所述编码标签树中确定相似度大于预设阈值的多个目标编码标签子树;针对每一所述目标编码标签子树,从所述目标编码标签子树对应的主体文本片段中确定所述实体。5.根据权利要求4所述的方法,其特征在于,所述标题文本的文本样式为topK文本样式,所述从所述编码标签树中确定相似度大于预设阈值的多个目标编码标签子树,包括:从所述编码标签树中确定目标编码标签节点,所述目标编码标签节点下的编码标签子树的数量大于或等于K;从所述目标编码标签节点下的所有编码标签子树中确定至少K个所述目标编码标签子树。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:通过如下方式计算任意两个编码标签子树中的第一编码标签子树和第二编码标签子树之间的相似度:在所述第一编码标签子树和所述第二编码标签子树的根节点不相同的情况下,确定所述第一编码标签子树和所述第二编码标签子树的相似度s=0;在所述第一编码标签子树和所述第二编码标签子树的根节点相同、且所述第一编码标签子树和所述第二编码标签子树的前序遍历结果以及后序遍历结果均相同的情况下,确定所述第一编码标签子树和所述第二编码标签子树的相似度s=1;在所述第一编码标签子树和所述第二编码标签子树的根节点相同、且所述第一编码标签子树和所述第二编码标签子树的前序遍历结果或后序遍历结果不相同的情况下,确定所2CN113609309A权利要求书2/2页述两个编码标签子树的相似度其中,N为所述第一编码标签子树中第一层节点的数量,Si表示以所述第一编码标签子树的第一层节点中的第i个节点为根节点的第一子树与以所述第二编码标签子树的第一层节点中的第i个节点为根节点的第二子树之间的相似度。7.根据权利要求5所述的方法,其特征在于,K是通过如下方式确定的:从所述语法分析树中确定包括所述实体概念的语法子树;从所述语法子树中确定基数标签对应的数量词K。8.一种知识图谱构建装置,其特征在于,所述装置包括:识别模块,用于从目标网页的标题文本中识别出实体概念,并从所述目标网页的主体文本中识别出对应所述实体概念的至少一个实体;构建模块,用于根据所述标题文本所属语种的语法分析规则,构建所述标题文本的语法分析树,并从所述语法分析树中确