信息抽取方法、装置、电子设备及存储介质.pdf
努力****骞北
亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
信息抽取方法、装置、电子设备及存储介质.pdf
本公开涉及一种信息抽取方法、装置、电子设备及存储介质,所述方法包括:对多个对象的原生评价信息进行语种转换,得到与每条原生评价信息对应的目标评价信息;对所述原生评价信息和所述目标评价信息进行语义单元拆分,得到多个原生语义单元和多个目标语义单元;构建语义单元匹配组;其中每个所述语义单元匹配组中包括一个目标语义单元,以及与所述目标语义单元具有相同语义的多个原生语义单元;所述多个原生语义单元对应不同的语种;基于对所述多个目标语义单元的语义聚类结果,以及所述语义单元匹配组,得到与所述多个对象对应的多语种属性描述信息
信息抽取方法、装置、电子设备及存储介质.pdf
本公开提供了一种信息抽取方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及文本处理技术领域。具体实现方案为:获取待处理的数据内容;将该数据内容输入至预先训练完成的目标网络模型,得到输出结果;其中,所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型;所述样本集包括多个正样本和多个负样本,所述正样本为设置有标注信息的样本语句,所述负样本为未设置有所述标注信息的样本语句,所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述;基于所述输出结果,确定所述数据内容中的目标实体和所述目标实
网页信息抽取方法、装置、电子设备及存储介质.pdf
本发明提供一种网页信息抽取方法、装置、电子设备及存储介质,网页信息抽取方法应用于图文网页,图文网页至少包括图文正文,图文正文至少包括图文主体,网页信息抽取方法包括:获取待抽取图文网页,并将待抽取图文网页渲染为html格式图文网页;基于html格式图文网页,得到与待抽取图文网页对应的dom节点树,其中,dom节点树包括多个节点,节点包括节点信息特征;基于节点信息特征,将多个节点进行聚类得到多个节点簇;确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇;基于图文主体节点簇,抽取图文正文。通过
表格信息抽取方法、装置、存储介质及电子设备.pdf
本发明公开了一种表格信息抽取方法、装置、存储介质及电子设备,对目标表格中的合并数据进行预处理,得到二维矩阵;将二维矩阵的行和/或列数据输入到表头检测模型,得到表头检测结果,并确定目标表格的表格样式;根据与表格样式对应的处理模式,生成单元格文本序列和表头文本矩阵;获得目标字段文本与表头文本序列中每一文本的匹配结果,并获得目标字段文本对应的单元格对象;基于每一目标字段文本对应的单元格对象的值序列,建立匹配结果对应的行或列的索引信息,以实现对目标单元进行信息抽取,得到抽取结果。本发明通过表头检测模型和表头文本序
信息抽取方法、装置、电子设备和可读存储介质.pdf
本公开提供了一种信息抽取方法、装置、电子设备和可读存储介质,涉及人工智能技术领域,具体为知识图谱技术领域。其中,信息抽取方法包括:获取待处理文本,得到所述待处理文本中每个字符的语义向量;根据所述待处理文本中的每个字符与每个字符的语义向量,分别生成关系预测矩阵、实体预测矩阵与对齐矩阵;使用所述关系预测矩阵、实体预测矩阵与对齐矩阵,抽取所述待处理文本中的目标三元组,将所述目标三元组作为所述待处理文本的信息抽取结果。本公开能够抽取文本中所存在的重叠三元组,扩展了信息抽取的应用场景,进一步提升了信息抽取的准确性与