网页正文抽取方法及装置.pdf
雅云****彩妍
在线预览结束,喜欢就下载吧,查找使用更方便
相关资料
网页正文抽取方法及装置.pdf
本发明公开了网页正文抽取方法及装置,通过下载网页页面,根据所述网页页面获取网页源代码,根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树,采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型,基于所述视觉识别模型定位文本域,基于所述文本域抽取特征文本,从而获得所述网页页面的正文语料,能有效避免现有抽取技术中人工规则和模板的弊端,能有效提取网页内容,兼容性高,杂质去除完整。
基于DIV位置的网页正文抽取方法和装置.pdf
本发明公开了一种基于DIV位置的网页正文抽取方法和装置。其中,该方法包括利用HTML页面在DOM树中的DIV块信息重新构建DIV块;保留重新构建DIV块中的原子DIV块,原子DIV块为除其本身之外不包含任何其他DIV块的DIV块;对每个原子DIV块进行参数分析,根据分析结果选取出包含网页正文的DIV块;对包含网页正文的DIV块进行内容提取,以获取网页正文。本发明能够防止同一DIV块被重复分析,从而提高了分析效率。同时,根据每个原子DIV块的参数来选取包含网页正文的DIV块,以有效去除HTML网页中的噪音信
一种招标网页的正文抽取方法、装置及存储介质.pdf
本申请涉及数据处理技术领域,更为具体来说,本申请涉及一种招标网页的正文抽取方法、装置及存储介质。所述方法包括:为待抽取的招标网页构建DOM树;确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点;从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,并将所述最优节点对应的文本存入待筛选文本集合,所述待筛选文本集合中包括多个层级对应的最优节点的文本;对待筛选文本集合进行规则筛选,得到目标正文。本申请将招标网页的正文抽取方法转换为最优路径搜索问题,大大地提升了效率,缩小了空间,
HTMLParser抽取Web网页正文信息.doc
提取网页主题相关内容一般在浏览Web上的网页时会发现两部分内容:一部分是网页的主题信息,另一部分则是与主题内容无关的导航条、广告信息、版权信息等内容,我们称之为“噪音”内容。通过提取主题信息可以减少一半浏览时间,提高用户获取信息的速度,从而增强Web的可用性。那么如何准确、有效的获取Web网页的主题信息呢?下面给出了一种解决方案。解析htmlHTMLParser是一个对现有的HTML进行分析的快速实时的解析器,首先从(http://HTMLParser.sourceforge.net/)下载htmlpar
网页内文抽取方法.pdf
一种网页内文抽取方法,运用于电子装置并且包括:取得特定网页的网页截图及网页原始码;对网页截图进行辨识,以取得至少一个目标区块在网页截图中的位置,其中所述目标区块至少包括特定文字内容;对目标区块执行字元辨识处理,以取得所述特定文字内容;及,将特定文字内容与网页原始码的内容进行比对以取得与所述特定文字内容的相似度最高的特定原始码内文,并输出所述特定原始码内文以作为特定网页的网页内文。