基于DIV位置的网页正文抽取方法和装置.pdf
努力****妙风
亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
基于DIV位置的网页正文抽取方法和装置.pdf
本发明公开了一种基于DIV位置的网页正文抽取方法和装置。其中,该方法包括利用HTML页面在DOM树中的DIV块信息重新构建DIV块;保留重新构建DIV块中的原子DIV块,原子DIV块为除其本身之外不包含任何其他DIV块的DIV块;对每个原子DIV块进行参数分析,根据分析结果选取出包含网页正文的DIV块;对包含网页正文的DIV块进行内容提取,以获取网页正文。本发明能够防止同一DIV块被重复分析,从而提高了分析效率。同时,根据每个原子DIV块的参数来选取包含网页正文的DIV块,以有效去除HTML网页中的噪音信
网页正文抽取方法及装置.pdf
本发明公开了网页正文抽取方法及装置,通过下载网页页面,根据所述网页页面获取网页源代码,根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树,采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型,基于所述视觉识别模型定位文本域,基于所述文本域抽取特征文本,从而获得所述网页页面的正文语料,能有效避免现有抽取技术中人工规则和模板的弊端,能有效提取网页内容,兼容性高,杂质去除完整。
基于文本标点密度连续和的网页正文抽取.docx
基于文本标点密度连续和的网页正文抽取标题:基于文本标点密度连续和的网页正文抽取技术摘要:随着互联网的快速发展,网页的数量也日益增多,如何高效准确地从网页中提取出有用的文本成为了研究的一个重要问题。本论文研究了一种基于文本标点密度连续和的网页正文抽取技术。该方法通过计算网页中文本中标点符号的密度,找到连续和较高的区域,从而有效地检测出网页中的正文部分。实验结果表明,该技术能够准确提取出网页正文,具有较好的效果和应用潜力。一、引言随着互联网的快速发展,人们从互联网中获取信息的需求也日益增加。然而,网页上的信息
基于网页文章的标题抽取方法及装置.pdf
本发明提出一种基于网页文章的标题抽取方法及装置,其中方法包括:获取网页文章对应的网页代码;根据渲染后的网页代码,构建DOM树;根据DOM树各个节点中元素的实际属性值对渲染后的网页代码进行调整;获取DOM树中正文区域前的叶子节点,并作为标题候选节点;根据标题候选节点中的文本内容特征,以及标题候选节点与正文区域之间的距离,计算标题候选节点的特征分数;将对应的特征分数最高的标题候选节点确定为标题节点,将其文本内容确定为网页文章的标题,从而能够结合正文区域所在位置,确定标题候选节点,结合标题候选节点中的文本内容特
一种招标网页的正文抽取方法、装置及存储介质.pdf
本申请涉及数据处理技术领域,更为具体来说,本申请涉及一种招标网页的正文抽取方法、装置及存储介质。所述方法包括:为待抽取的招标网页构建DOM树;确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点;从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,并将所述最优节点对应的文本存入待筛选文本集合,所述待筛选文本集合中包括多个层级对应的最优节点的文本;对待筛选文本集合进行规则筛选,得到目标正文。本申请将招标网页的正文抽取方法转换为最优路径搜索问题,大大地提升了效率,缩小了空间,