一种招标网页的正文抽取方法、装置及存储介质.pdf
Jo****31
亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
一种招标网页的正文抽取方法、装置及存储介质.pdf
本申请涉及数据处理技术领域,更为具体来说,本申请涉及一种招标网页的正文抽取方法、装置及存储介质。所述方法包括:为待抽取的招标网页构建DOM树;确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点;从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,并将所述最优节点对应的文本存入待筛选文本集合,所述待筛选文本集合中包括多个层级对应的最优节点的文本;对待筛选文本集合进行规则筛选,得到目标正文。本申请将招标网页的正文抽取方法转换为最优路径搜索问题,大大地提升了效率,缩小了空间,
网页正文抽取方法及装置.pdf
本发明公开了网页正文抽取方法及装置,通过下载网页页面,根据所述网页页面获取网页源代码,根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树,采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型,基于所述视觉识别模型定位文本域,基于所述文本域抽取特征文本,从而获得所述网页页面的正文语料,能有效避免现有抽取技术中人工规则和模板的弊端,能有效提取网页内容,兼容性高,杂质去除完整。
基于DOM树的正文抽取方法、装置、设备及存储介质.pdf
本发明公开了一种基于DOM树的正文抽取方法、装置、设备及存储介质,通过获取待抽取网页中正文信息块对应的DOM树的各节点路径,根据各节点路径确定中心文本区间;根据预设编号集获取所述中心文本区间内的缺失编号,将所述缺失编号添加至所述中心文本区间的中心文本中,获得连续中心文本区间;遍历所述连续中心文本区间的节点路径下的各叶子节点,抽取各叶子节点的文本信息;将各文本信息进行连接组合,获得所述待抽取网页的正文文本信息,提高了网页正文信息抽取的准确率,提高了网页正文信息抽取的速度和效率,节省了信息抽取的时间,提升了用
网页信息抽取方法、装置、电子设备及存储介质.pdf
本发明提供一种网页信息抽取方法、装置、电子设备及存储介质,网页信息抽取方法应用于图文网页,图文网页至少包括图文正文,图文正文至少包括图文主体,网页信息抽取方法包括:获取待抽取图文网页,并将待抽取图文网页渲染为html格式图文网页;基于html格式图文网页,得到与待抽取图文网页对应的dom节点树,其中,dom节点树包括多个节点,节点包括节点信息特征;基于节点信息特征,将多个节点进行聚类得到多个节点簇;确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇;基于图文主体节点簇,抽取图文正文。通过
网页正文获取方法、装置、存储介质及电子设备.pdf
本公开提供了一种网页正文获取方法、装置、存储介质及电子设备,涉及互联网技术领域。该方法包括:获取目标网页的网页源码;根据网页源码构建对应的DOM树;根据DOM树中各个子节点的文本密度,生成对应的节点列表;针对目标网页中包含的至少一个标题中的每个标题,在节点列表中存在与当前标题匹配的正文节点的情况下,至少根据正文节点对应的正文内容与正文节点对应的正文标题在目标网页中的位置关系,定位正文内容在目标网页中的位置并获取正文内容。