HTMLParser抽取Web网页正文信息-豆柴文库

HTMLParser抽取Web网页正文信息.doc

2024-01-18

12金币

310KB

18页

胜利****实阿

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共18页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

提取网页主题相关内容一般在浏览Web上的网页时会发现两部分内容：一部分是网页的主题信息，另一部分则是与主题内容无关的导航条、广告信息、版权信息等内容，我们称之为“噪音”内容。通过提取主题信息可以减少一半浏览时间，提高用户获取信息的速度，从而增强Web的可用性。那么如何准确、有效的获取Web网页的主题信息呢？下面给出了一种解决方案。解析htmlHTMLParser是一个对现有的HTML进行分析的快速实时的解析器,首先从(http://HTMLParser.sourceforge.net/)下载htmlparser1_620050925.zip解压缩得htmlparser.jar,将htmlparser.jar添加到classpath中,并在程序中引入相应的HTMLParser包。类Parser是HTMLParser的入口,将HTML文本信息传给它,或者直接传递一个URL地址,如:Parserparser=newParser(“http://www.yahoo.com.cn”);初始化一个Parser实例parser后,紧接着就是对所传入的HTML内容进行解析,方法parser.extractAllNodesThatAre(XXXTag.class)将HTML内容中存在的所有的标签XXXTag给解析出来放到一个列表list中去,几乎HTML的标签都有一个对应的类,比如LinkTag、ImageTag、FormTag、TableTag等等,这些标签类都在org.htmlparser.tags包中。根据要处理不同的标签传入不同的类,这种做法可以很方便地处理其他类型的标签。返回的列表中每个元素都是传入类的一个实例,通过这个实例可以访问到当前这个标签的起始位置、结束标签的位置以及包含在标签中的文本信息,同时也可以访问其父标签以及所有的子标签等等,同时可以通过toHtml方法来对标签中包含的HTML信息进行清洗,HTMLParser会自动把一些没有关闭的标签加上,这样所生成的字符串中就包含着完整的格式控制信息,在页面上显示这样的信息也不会破坏版面布局,达到了预期的效果。例如：有如下不规范的html文件(有未关闭标签)通过节点的toHtml（）方法补全标签补全了没有关闭的标签本系统采用先读取html文件并将其转换为字符串htmlString:StringhtmlString=readHtmlFile(file);然后将其作为Parser对象的构造参数:Parserparser=Parser.createParser(htmlString,”gb2312”);然后结合过滤器过滤出需要的标签节点。过滤器一般主题信息包含在下列标签中：<table>、<tr>、<td>、<p>、<div>等。所以如何过滤出这些节点标签呢？htmlparser提供了很好的支持：NodeFilter[]filters=newNodeFilters[3];filters[0]=newNodeClassFilter(TableTag.class);filters[1]=newNodeClassFilter(ParagraphTag.class);filters[2]=newNodeClassFilter(Div.class);NodeFilterfilter=newOrFilter(filters);NodeListlist=parser.extractAllNodesThatMatch(filter);OrFilter是结合几种过滤条件的‘或’过滤器。通过以上代码就可以过滤得到所有的<table>、<p>和<div>节点。例如：下面html文件经过以上过滤器过滤后就只得到所需的节点了Html文件经过滤器过滤经过滤器过滤后得到的结果信息抽取、1、<p>、<div>节点的内容相关性判定：我们称包含文本信息的区域为内容块，本系统的核心是内容块的主题相关性判断。本系统所涉及的内容块节点为<table>、<div>、<p>。主题相关性判定（当然本系统认为<div>标签中如果还含其他标签，或者<P>标签中含有<div>,<script>或内嵌<p>标签，则认为主题不相关。）包含两部分：局部相关性判定（由局部相关度表示）和上下文相关性判定。局部相关度(LocalRel)由内容块节点中的非链接中文字符总数和链接总数决定，其计算公式为：LocalRel=wordsNum/linkNum当LocalRel大于等于L(其中L是局部相关度的阀值)，称该块局部相关（如果linkNum为0且wordsNum大于14，认为局部相关）。上下文相关性即判定该内容块节点的前驱兄弟和后继兄弟的主题相关性。前驱兄弟和后继兄弟必须是包含有中文内容的结点。主题内容块的判定算法如图：words_min是规定内容块节点

相关资料

HTMLParser抽取Web网页正文信息.doc

2024-01-18

310KB

HTMLParser获取Web网页正文信息成功例子.doc

HTMLParser提取网页主题相关内容(获取Web网页正文信息成功例子)一般在浏览Web上的网页时会发现两部分内容：一部分是网页的主题信息，另一部分则是与主题内容无关的导航条、广告信息、版权信息等内容，我们称之为“噪音”内容。通过提取主题信息可以减少一半浏览时间，提高用户获取信息的速度，从而增强Web的可用性。那么如何准确、有效的获取Web网页的主题信息呢？下面给出了一种解决方案。解析htmlHTMLParser是一个对现有的HTML进行分析的快速实时的解析器,首先从(http://HTMLParser

2024-09-16

286KB

Web网页正文抽取方法研究的任务书.docx

Web网页正文抽取方法研究的任务书任务书任务背景：随着互联网的发展和应用越来越广泛，对于Web网页正文抽取的需求也越来越迫切。Web网页正文抽取是指从Web网页中提取出主体内容区域的技术。对于一些系统应用，需要提取出Web网页的正文信息，如：搜索引擎检索结果中仅保留正文区域，抽取网页的主体内容并存储。因此，Web网页正文抽取技术的研究和应用已经成为了机器学习、自然语言处理等领域的研究重点。任务描述：本次任务旨在研究Web网页正文抽取方法，为此需要完成以下任务：1.对Web网页正文抽取的相关技术进行深入研究

2024-10-15

11KB

原创基于DOM和网页模板的Web信息抽取.doc

冒险岛私服www.yourmyhe.comoiu摘要：文章提出了一种基于DOM(文档结构模型)和网页模板的Web信息提取方法。参照DOM的定义，通过构造HTML解析树来描述网页结构。在抽取网页之前，先通过归纳网页模板来过滤网页中的噪音信息。然后，使用基于相对路径的抽取规则来进行信息抽取。最后，本文给出了归纳网页模板和抽取网页信息的实验结果。实验结果表明本文提出的归纳网页模板方法和信息抽取方法是正确的和高效的。中国论文网关键词：信息抽取；文档结构模型；网页模板；抽取规则；相对路径中图分类号：TP311文献标

2024-07-09

40KB

网页正文抽取方法及装置.pdf

本发明公开了网页正文抽取方法及装置，通过下载网页页面，根据所述网页页面获取网页源代码，根据所述网页源代码创建DOM树，基于所述DOM树和所述网页页面的页面样式生成视觉树，采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型，基于所述视觉识别模型定位文本域，基于所述文本域抽取特征文本，从而获得所述网页页面的正文语料，能有效避免现有抽取技术中人工规则和模板的弊端，能有效提取网页内容，兼容性高，杂质去除完整。

2024-01-06

314KB