基于DOM树的正文抽取方法、装置、设备及存储介质.pdf
青团****青吖
亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
基于DOM树的正文抽取方法、装置、设备及存储介质.pdf
本发明公开了一种基于DOM树的正文抽取方法、装置、设备及存储介质,通过获取待抽取网页中正文信息块对应的DOM树的各节点路径,根据各节点路径确定中心文本区间;根据预设编号集获取所述中心文本区间内的缺失编号,将所述缺失编号添加至所述中心文本区间的中心文本中,获得连续中心文本区间;遍历所述连续中心文本区间的节点路径下的各叶子节点,抽取各叶子节点的文本信息;将各文本信息进行连接组合,获得所述待抽取网页的正文文本信息,提高了网页正文信息抽取的准确率,提高了网页正文信息抽取的速度和效率,节省了信息抽取的时间,提升了用
基于实体感知的关系抽取方法、装置、设备及存储介质.pdf
本发明公开了基于实体感知的关系抽取方法、装置、设备及存储介质,步骤:为实体构建标记序列,并将标记序列与文本拼接得到输入序列;构建输入序列的掩码矩阵;使用预训练语言模型编码输入序列得到文本向量序列;取出已知实体的首尾向量拼接并映射得到实体向量表示;将各个实体向量两两拼接预测实体对关系。本发明的基于实体感知的关系抽取方法,在不改变预训练模型结构的基础上,通过重新定义预训练模型预留字符,结合掩码机制和位置编码,在文本编码层融合了多实体信息,实现了融合实体信息的一次编码模型,相比于现有技术,其步序较为简单,抽取效
事件抽取方法、装置、设备及存储介质.pdf
本申请实施例公开了一种事件抽取方法、装置、设备及存储介质,获取目标事件类型关联的描述性问句;在源数据中查找上述描述性问句的答案;将答案与描述性问句对应的事件角色相关联。可见,本申请方案,提供了一种新的事件抽取方法,该方法不再将事件角色作为机器学习的目标,当有新的事件角色时,只需要增加事件角色与描述性问句的对应关系即可,而该对应关系的增加操作简单、即时,不会对本申请提供的事件抽取方法产生影响,从而避免事件角色作为类别对事件抽取的影响,提高了事件抽取方法对于用户使用的便利性。
关系抽取方法、装置、设备和存储介质.pdf
本申请公开了一种关系抽取方法、装置、设备和存储介质,涉及人工智能、智慧交通等技术领域。所述方法包括:获取包含第一实体和第二实体的目标文本;对目标文本中的第一实体、第二实体和关键词进行标注,得到带标注的目标文本;对带标注的目标文本进行编码处理,得到第一实体对应的编码表示向量和实体关键词表示向量,以及第二实体对应的编码表示向量和实体关键词表示向量;根据第一实体对应的编码表示向量和实体关键词表示向量,以及第二实体对应的编码表示向量和实体关键词表示向量,确定第一实体和第二实体间的关系。本申请提供了一种泛化性更强的
基于DOM树的web新闻正文抽取技术的研究与实现的任务书.docx
基于DOM树的web新闻正文抽取技术的研究与实现的任务书任务书一、任务背景作为目前最为流行的信息传递媒介之一,网页新闻所扮演的角色越来越重要,因为其可以实现更快速、更广泛的信息传递。然而,网页新闻的传递方式也带来了不少问题,例如网页新闻中存在大量的噪音信息,影响用户的浏览体验和信息获取效率。因此,如何实现自动化的网页新闻正文抽取技术,已成为了当前研究的热点之一。二、任务目标本次任务旨在研究和实现一种基于DOM树的web新闻正文抽取技术。在完成本次任务后,我们希望达到以下目标:1.系统能够自动检测网页并提取