预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115935995A(43)申请公布日2023.04.07(21)申请号202211601610.8G06F16/36(2019.01)(22)申请日2022.12.13G06F16/35(2019.01)G06F18/23213(2023.01)(71)申请人南京大学G06F18/2321(2023.01)地址210023江苏省南京市栖霞区仙林大G06F18/2323(2023.01)道163号G06N5/04(2023.01)(72)发明人王昊赵梓博刘懋霖赵萌G06N5/022(2023.01)王彦莹(74)专利代理机构武汉企惠惠知识产权代理事务所(普通合伙)42293专利代理师夏琼琼(51)Int.Cl.G06F40/295(2020.01)G06F40/289(2020.01)G06F40/242(2020.01)G06F40/268(2020.01)权利要求书2页说明书5页附图5页(54)发明名称面向知识图谱生成的非遗丝织领域实体关系抽取方法(57)摘要本发明公开了面向知识图谱生成的非遗丝织领域实体关系抽取方法,具体包括以下步骤:步骤一、实体识别;步骤二、关系抽取;步骤三、实例拓展;步骤四、图谱构建;本发明涉及非遗数字化保护技术领域。该面向知识图谱生成的非遗丝织领域实体关系抽取方法,通过利用成熟的自然语言处理工具和术语词典进行实体识别,通过无监督机器学习方法抽取实体关系,并采用半监督方式扩增标注实例,最后基于标注的关系三元组生成领域知识图谱,有效解决了标注数据缺乏、文本特征选择困难和应用深度较差的问题,适用于缺少学习语料和标注数据场景下面向大规模网络非结构化文本的实体关系抽取和应用。CN115935995ACN115935995A权利要求书1/2页1.面向知识图谱生成的非遗丝织领域实体关系抽取方法,其特征在于:具体包括以下步骤:步骤一、实体识别:对于领域实体识别,将丝织领域对应的术语词典作为用户自定义词典输入分词工具,控制分词工具在分词过程中对领域实体进行切分,再进行词典匹配,对于通用类型实体识别,使用成熟自然语言处理工具进行识别;步骤二、关系抽取:将语句分为实体一、实体二、实体一前的前文文本、实体二后的后文文本以及实体一和实体二之间的中间文本,通过对文本的不同部分进行BERT嵌入表示构建文本特征,将各特征进行组合分组并求各特征方案的平均特征向量,通过KMeans、密度聚类和谱聚类算法分别进行关系聚类,基于人工预标注的关系标签对各组聚类结果进行评估和分析,最终确定关系聚类效果最优结果下的最优文本特征和聚类算法;步骤三、实例拓展:利用最优的文本特征和聚类算法辅助选择高价值的样本传递给分类器进行学习,得到关系分类模型;步骤四、图谱构建:按照知识加工、知识图谱构建、图谱应用模式设计的顺序对丝织领域知识图谱进行构建,后对丝织领域知识图谱进行人文叙事。2.根据权利要求1所述的面向知识图谱生成的非遗丝织领域实体关系抽取方法,其特征在于:所述步骤一中实体识别具体包括如下步骤:将领域词典作为自定义词典导入自然语言处理工具,使用自然语言处理工具对句子分词,得到分词标志和各标志的词性特征;将分词得到的标志和标志的词性特征信息输入自然语言处理工具中,进行通用类型实体识别,包括时间、人名、地名、机构名四类,自然语言处理的输出为语料中的全部通用类型实体的名称、类型以及实体在分词列表中的起止位置;以每个标志为单元进行实体匹配,其中领域实体通过领域词典进行匹配,实体类型为“专有”,通用类型实体通过自然语言处理的输出结果进行匹配。3.根据权利要求2所述的面向知识图谱生成的非遗丝织领域实体关系抽取方法,其特征在于:所述输出结果包括实体名称、实体词性、实体类型和实体在原文本中的起始位置。4.根据权利要求1所述的面向知识图谱生成的非遗丝织领域实体关系抽取方法,其特征在于:所述步骤二中的文本特征具体包括:中间文本经嵌入后生成的中间文本特征,前文文本和后文文本生成的前后文特征,实体一和实体二将各自的词性文本和实体类型文本进行嵌入后分别生成各自的词性特征和实体类型特征。5.根据权利要求1所述的面向知识图谱生成的非遗丝织领域实体关系抽取方法,其特征在于:所述步骤三具体包括如下步骤:基于经过关系聚类实验的带类别标签的语料训练分类器;每轮迭代中从无标签语料中抽取部分语料,使用分类器对其进行类别预测,结合聚类方法筛选出有价值的实例,经人工标注后加入训练集;补充新数据后的训练集继续用于训练新的分类器,当达到停止条件时,停止迭代模型,输出最终的分类器。6.根据权利要求5所述的面向知识图谱生成的非遗丝织领域实体关系抽取方法,其特征在于:所述有价值的实例选择策略包括:代表性采样:聚类算法将某样本单独作为一簇标记所