预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110598204A(43)申请公布日2019.12.20(21)申请号201910699296.3(22)申请日2019.07.31(71)申请人平安科技(深圳)有限公司地址518000广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼(72)发明人梁欣朱威(74)专利代理机构北京英特普罗知识产权代理有限公司11015代理人邓应山(51)Int.Cl.G06F17/27(2006.01)G06F16/36(2019.01)权利要求书2页说明书10页附图3页(54)发明名称基于知识图谱的实体识别数据增强方法及系统(57)摘要本发明提供一种基于知识图谱的实体识别数据增强方法,包括:采集确定领域的问答数据;识别问答数据的标注信息,并根据标注信息识别问答数据的意图,以建立问答数据中的实体在知识图谱中的结构;从实体中识别出与意图相关的第一实体,并对第一实体概念化成第一概念以获取第一问答数据模板,第一问答数据模板包括第一概念与关系词;对关系词进行分词,得到分词词语;根据每个分词词语与意图的相关程度,对每个分词词语分别赋予对应的权重,以获得保留的分词词语;将保留的分词词语及第一概念进行组合,以生成第二问答数据模板并加入至问答数据库中。通过本发明能够提升垂直领域中问答系统的搭建速度,且能够有效提高问句实体识别的召回率。CN110598204ACN110598204A权利要求书1/2页1.一种基于知识图谱的实体识别数据增强方法,其特征在于,包括步骤:从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域;识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息;根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词;对所述关系词进行分词,得到分词词语;根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高;根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语;将所述保留的分词词语及所述第一概念进行组合,以生成新的第二问答数据模板;及将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。2.如权利要求1所述的基于知识图谱的实体识别数据增强方法,其特征在于,所述根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板的步骤,还包括步骤:识别所述第一实体的属性;将所述第一实体按照所述属性进行分类;及将属性相同的第一实体划分为同一问答数据模板。3.如权利要求1所述的基于知识图谱的实体识别数据增强方法,其特征在于,所述根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语的步骤,还包括步骤:将所述权重与数据库中存储的预设权重进行比较;及当所述权重高于或等于所述预设权重时,保留与所述权重对应的分词词语。4.如权利要求3所述的基于知识图谱的实体识别数据增强方法,其特征在于,所述将所述权重与数据库中存储的预设权重进行比较的步骤之后,还包括步骤:当所述权重低于所述预设权重时,将与所述权重对应的分词词语删除。5.如权利要求1所述的基于知识图谱的实体识别数据增强方法,其特征在于,所述根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板的步骤,还包括步骤:根据所述知识图谱确认所述第一实体的子图结构;及将所述子图结构中与所述第一实体的属性相同的第二实体代替所述第一实体以获取第三问答数据模板;保存所述第三问答数据模板,以对所述问答数据库进行扩充。6.如权利要求5所述的基于知识图谱的实体识别数据增强方法,其特征在于,所述方法还包括步骤:根据所述意图从所述实体中识别出与所述意图不相关的第三实体,按照预设规则将与所述第三实体的属性相同的第四实体代替所述第三实体以获取第四问答数据模板;2CN110598204A权利要求书2/2页保存所述第四问答数据模板,以对所述问答数据库进行扩充。7.如权利要求5或6所述的基于知识图谱的实体识别数据增强方法,其特征在于,所述方法还包括步骤:当所述第一实体或所述第二实体与第五实体为同一事物时,将所述第五实体代替所述第一实体或所述第二实体以获取第五问答数据模板;保存所述第五问答数据模板,以对所述问答数据库进行扩充。8.一种基于知识图谱的实体识别数据增强系统,其特征在于,包括:采集模块,用于从问答数据库