预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于XML描述的WEB信息抽取技术研究(图文)论文导读:怎样对Web上大量的数据信息进行数据抽取成了现今数据挖掘研究的热点。而XML是面向语义的语言,它的产生为解决这一问题提供了条件,即XML能够较好地为计算机所识别。关键词:数据抽取,XML,半结构化数据1.引言互联网已成为人们获得信息、取得服务的重要渠道之一。怎样对Web上大量的数据信息进行数据抽取成了现今数据挖掘研究的热点。Web数据抽取是从网络中获得客户需要的文本、多媒体等信息的过程。例如:需要查找清华大学出版社新书的出版情况。发表论文。这就需要给出一个程序自动访问清华大学站点上的相关页面并返回有关数据。由于目前网络上信息的主要组织形式是HTML格式,而HTML标记语言只描述数据的表现形式,不描述数据含义及结构。因此,计算机无法自动识别。而XML是面向语义的语言,它的产生为解决这一问题提供了条件,即XML能够较好地为计算机所识别。2.XML与Web数据抽取XML(extensibleMarkupLanguage)是由W3C设计,特别为Web应用服务的SGML(StandardGener2alMarkupLanguage)的一个重要分支,它是SGML的一个简化子集,将SCGL丰富的功能和HTML的易用性结合起来,以一种开放的、自我描述的方式定义数据结构。发表论文。XML解决了HTML不能解决的两个Web问题,一是Internet发展速度快而接入速度慢的问题,另一个是可利用的信息多,但难以找到自己需要的那部分信息的问题。XML能增加结构和语义信息,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询抽取。发表论文。3.数据抽取过程描述Web页面抽取处理过程如下:3.1获取页面在数据抽取过程中,通过站点链接查找Web页面会遇到两种Web页,一是包含所需数据的Web页,二是包含所需数据的目标页面的超链接Web页。对Web站点的导航规则可以经过仔细分析目标站点,结合所需数据的特点进行手工编写或者借助于一些半自动化的工具编写。3.2页面清洗当前许多Web站点上的HTML代码并不是格式完整的,首先要把这种格式非良好的HTML文档转变成格式良好的XML文档,然后提取用户所需的信息。用XML标引的网络数据是一种半结构化的数据模型,通过具有语义的TAG可以清晰地标识网页的逻辑结构,从而能方便地实施准确的信息查询与模型抽取,完成异构网络数据的整合。将HTML文档转换成XML以便数据抽取,一般可采用过滤软件修复被破坏的结构,并产生一个良好的HTML结构,即XHTML,目前有一些对HTML页面设计进行规范化组织的工具,Tidy就是一种过滤HTML文本中错误的免费产品。使用由Tidy库提供的功能可以在XMLHelp1tidyHTML()方法中做转换,把URL作为参数进行方法调用,输出结果产生XML文档格式,如下代码可以实现。Publicstaticvoidmain(Stringarg[]){try{Documentdoc=XMLHelper1tidyHTML(“http://www.changhong.comPcatalogglobalPlcd1html”);XMLHelper.outputXMLToFile(doc,”XML”+File.separator+lcd.xml”);}catch(XMLHelperExceptionxmle){//……}}3.3数据转换假定已从某电子产品的相关网页上获取了有关新产品的信息,需要按照数字高清新产品(数字高清产品名、技术参数、类型、价格)这样的格式构造XML文件,本文采用XSLT的方法来进行转换,主要代码如下:<?xmlversion=”110”encoding=”UTF28”?><xsl:stylesheetversion=”110”xmlns:xsl=”www1w31orgP2001PXSLPTransform><xsl:outputversion=”110”indent=”yes”encod2ing=”UTF-8”omit-xml-declaration=”no”method=”xml”P><!-建立根元素寻找信息的引用点-><xsl:templatematch=”Phtml”><Result><Item><xsl:apply-templatesP><Item><Result><Pxsl:template><!-匹配需要的信息内容-><xsl:templatematch=”text()”><Pxsl:template><!-从引用点开始,提取所需信息的各项内容-><xsl:templatematch=”PHTMLPBODYPTABLE[1]PTR[2]PTD[3]”></xsl:template><lcdname><xsl: