基于DOM树的正文抽取方法、装置、设备及存储介质-豆柴文库

基于DOM树的正文抽取方法、装置、设备及存储介质.pdf

2023-05-10

10金币

657KB

16页

青团****青吖

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共16页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

相关资料

基于DOM树的正文抽取方法、装置、设备及存储介质.pdf

本发明公开了一种基于DOM树的正文抽取方法、装置、设备及存储介质,通过获取待抽取网页中正文信息块对应的DOM树的各节点路径,根据各节点路径确定中心文本区间;根据预设编号集获取所述中心文本区间内的缺失编号,将所述缺失编号添加至所述中心文本区间的中心文本中,获得连续中心文本区间;遍历所述连续中心文本区间的节点路径下的各叶子节点,抽取各叶子节点的文本信息;将各文本信息进行连接组合,获得所述待抽取网页的正文文本信息,提高了网页正文信息抽取的准确率,提高了网页正文信息抽取的速度和效率,节省了信息抽取的时间,提升了用

2023-05-10

657KB

基于实体感知的关系抽取方法、装置、设备及存储介质.pdf

本发明公开了基于实体感知的关系抽取方法、装置、设备及存储介质，步骤：为实体构建标记序列，并将标记序列与文本拼接得到输入序列；构建输入序列的掩码矩阵；使用预训练语言模型编码输入序列得到文本向量序列；取出已知实体的首尾向量拼接并映射得到实体向量表示；将各个实体向量两两拼接预测实体对关系。本发明的基于实体感知的关系抽取方法，在不改变预训练模型结构的基础上，通过重新定义预训练模型预留字符，结合掩码机制和位置编码，在文本编码层融合了多实体信息，实现了融合实体信息的一次编码模型，相比于现有技术，其步序较为简单，抽取效

2023-11-05

475KB

基于DOM树的web新闻正文抽取技术的研究与实现.docx

基于DOM树的web新闻正文抽取技术的研究与实现随着互联网的发展，Web新闻的数量不断增长，但用户需要的信息却往往深藏在庞大的新闻页面中。因此，Web新闻正文抽取技术应运而生。Web新闻正文抽取技术旨在从Web页面中提取出包含有用信息的段落，以便更好地展示和应用。Web新闻正文抽取技术最基本的思想是，通过对Web页面的DOM树进行分析，并使用一些特定的技术从中提取出正文内容。下面将从DOM树的结构、Web新闻正文特性及抽取技术几个方面来阐述这一技术的研究与实现。一、DOM树的结构DOM树（Document

2024-10-17

11KB

事件抽取方法、装置、设备及存储介质.pdf

本申请实施例公开了一种事件抽取方法、装置、设备及存储介质，获取目标事件类型关联的描述性问句；在源数据中查找上述描述性问句的答案；将答案与描述性问句对应的事件角色相关联。可见，本申请方案，提供了一种新的事件抽取方法，该方法不再将事件角色作为机器学习的目标，当有新的事件角色时，只需要增加事件角色与描述性问句的对应关系即可，而该对应关系的增加操作简单、即时，不会对本申请提供的事件抽取方法产生影响，从而避免事件角色作为类别对事件抽取的影响，提高了事件抽取方法对于用户使用的便利性。

2023-07-24

743KB

关系抽取方法、装置、设备和存储介质.pdf

本申请公开了一种关系抽取方法、装置、设备和存储介质，涉及人工智能、智慧交通等技术领域。所述方法包括：获取包含第一实体和第二实体的目标文本；对目标文本中的第一实体、第二实体和关键词进行标注，得到带标注的目标文本；对带标注的目标文本进行编码处理，得到第一实体对应的编码表示向量和实体关键词表示向量，以及第二实体对应的编码表示向量和实体关键词表示向量；根据第一实体对应的编码表示向量和实体关键词表示向量，以及第二实体对应的编码表示向量和实体关键词表示向量，确定第一实体和第二实体间的关系。本申请提供了一种泛化性更强的

2023-07-24

1.4MB