基于DOM树的正文抽取方法、装置、设备及存储介质.pdf
青团****青吖
亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
基于DOM树的正文抽取方法、装置、设备及存储介质.pdf
本发明公开了一种基于DOM树的正文抽取方法、装置、设备及存储介质,通过获取待抽取网页中正文信息块对应的DOM树的各节点路径,根据各节点路径确定中心文本区间;根据预设编号集获取所述中心文本区间内的缺失编号,将所述缺失编号添加至所述中心文本区间的中心文本中,获得连续中心文本区间;遍历所述连续中心文本区间的节点路径下的各叶子节点,抽取各叶子节点的文本信息;将各文本信息进行连接组合,获得所述待抽取网页的正文文本信息,提高了网页正文信息抽取的准确率,提高了网页正文信息抽取的速度和效率,节省了信息抽取的时间,提升了用
基于实体感知的关系抽取方法、装置、设备及存储介质.pdf
本发明公开了基于实体感知的关系抽取方法、装置、设备及存储介质,步骤:为实体构建标记序列,并将标记序列与文本拼接得到输入序列;构建输入序列的掩码矩阵;使用预训练语言模型编码输入序列得到文本向量序列;取出已知实体的首尾向量拼接并映射得到实体向量表示;将各个实体向量两两拼接预测实体对关系。本发明的基于实体感知的关系抽取方法,在不改变预训练模型结构的基础上,通过重新定义预训练模型预留字符,结合掩码机制和位置编码,在文本编码层融合了多实体信息,实现了融合实体信息的一次编码模型,相比于现有技术,其步序较为简单,抽取效
基于DOM树的web新闻正文抽取技术的研究与实现.docx
基于DOM树的web新闻正文抽取技术的研究与实现随着互联网的发展,Web新闻的数量不断增长,但用户需要的信息却往往深藏在庞大的新闻页面中。因此,Web新闻正文抽取技术应运而生。Web新闻正文抽取技术旨在从Web页面中提取出包含有用信息的段落,以便更好地展示和应用。Web新闻正文抽取技术最基本的思想是,通过对Web页面的DOM树进行分析,并使用一些特定的技术从中提取出正文内容。下面将从DOM树的结构、Web新闻正文特性及抽取技术几个方面来阐述这一技术的研究与实现。一、DOM树的结构DOM树(Document
事件抽取方法、装置、设备及存储介质.pdf
本申请实施例公开了一种事件抽取方法、装置、设备及存储介质,获取目标事件类型关联的描述性问句;在源数据中查找上述描述性问句的答案;将答案与描述性问句对应的事件角色相关联。可见,本申请方案,提供了一种新的事件抽取方法,该方法不再将事件角色作为机器学习的目标,当有新的事件角色时,只需要增加事件角色与描述性问句的对应关系即可,而该对应关系的增加操作简单、即时,不会对本申请提供的事件抽取方法产生影响,从而避免事件角色作为类别对事件抽取的影响,提高了事件抽取方法对于用户使用的便利性。
关系抽取方法、装置、设备和存储介质.pdf
本申请公开了一种关系抽取方法、装置、设备和存储介质,涉及人工智能、智慧交通等技术领域。所述方法包括:获取包含第一实体和第二实体的目标文本;对目标文本中的第一实体、第二实体和关键词进行标注,得到带标注的目标文本;对带标注的目标文本进行编码处理,得到第一实体对应的编码表示向量和实体关键词表示向量,以及第二实体对应的编码表示向量和实体关键词表示向量;根据第一实体对应的编码表示向量和实体关键词表示向量,以及第二实体对应的编码表示向量和实体关键词表示向量,确定第一实体和第二实体间的关系。本申请提供了一种泛化性更强的