预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第35卷第4期西南师范大学学报(自然科学版)2010年8月 Vol.35No.4JournalofSouthwestChinaNormalUniversity(NaturalScienceEdition)Aug.2010 文章编号:1000-5471(2010)04-0159-05 * 基于信息量的Web表格信息抽取方法 曾广朴,陶维安 长江师范学院数学与计算机学院,重庆涪陵408100 摘要:提出一种基于有效信息量的Web表格信息抽取模型,该模型主要由表格定位和表格信息抽取二个模块组 成,根据Web表格的内容特征来识别主题表格,通过检查格式、语法的特征将表格分割成值域与属性域.实验结 果表明该模型能够很好地应用于Web表格信息的抽取. 关键词:Web表格;有效信息率;文档对象模型;信息抽取 中图分类号:TP311.13文献标识码:A 随着Internet的高速发展,Web已经成为一个巨大、分布和共享的信息空间.面对海量的数据资源, 现今的搜索引擎技术在处理信息的粒度上还不能达到直接定位到所需数据所在准确位置的目的.因此,随 着用户对Web信息的需求越来越高,Web信息抽取技术应运而生.表格作为一种简洁有效的数据信息表 达方式,在各领域的Web页面中都广泛应用,比如:网上购物、股票报价、航班时刻表等.因此,从Web 页面所包含的表格中提取信息成为Web信息抽取领域中一个重要且有价值的研究课题[1].本文针对Web 表格信息抽取的一些关键技术和实现方法进行研究探讨,其目的是提出一种以Web表格为信息抽取对象 的、适用于各种网页结构、能够较好并完整地抽取出表格中的单元信息和结构信息的表格信息抽取引擎. 1相关工作现状 Web表格信息抽取的提出始于上世纪九十年代末,近年来得到了一些学者和研究机构的关注,主要采 用的方法有手工编写代码的方法、机器学习方法和启发式自动化方法[2].这些方法各有特点,手工编写代 码方法表达能力强,但需要用户编写复杂的代码,且由于网页经常变化而维护困难;包装器归纳方式是目 前国内外在信息抽取领域用得较多的一种方式,包装器归纳法是一种自动构造包装器的技术,主要思想是 用归纳式学习方法生成抽取规则,用户在一系列的网页中标记出需要抽取的数据[3],系统在这些例子的基 础上归纳出规则,这些规则的精确度如何取决于例子的质量如何;本体论方法是一种很有前景的方法,但 关键问题是如何有效地创建本体.目前,在该方法所需本体的创建大多需部分手工完成;半自动的方法利 用格式信息半自动地抽取Web结构信息,该方法只能抽取部分HTML表格;启发式自动化方法提出了一 种抽取表格数据的自动方法,但没有给出具有嵌套的表头结构的表格的转换方法,并且它不能转换无标志 表头的HTML表格[4]. 本文中采用的是基于表格结构分析的方法来构造抽取模型.主要通过分析表格结构,将HTML标记 定义的表格转化为一种逻辑表格结构,进而提取表格信息. 2基于信息量的Web表格信息抽取 2.1设计思想 一个Web页面中通常包含一个或多个HTML表格,一个表格又由一个或多个单元格组成.因此,定 *收稿日期:2009-12-29 基金项目:重庆市教委科学技术研究项目(KJ091309). 作者简介:曾广朴(1966-),男,重庆人,讲师,主要从事网络信息系统及数据挖掘方面的研究. 061西南师范大学学报(自然科学版)投稿网址http://xbgjxt.swu.cn第35卷 义如下数据结构: 1)单元格 classCell{ Stringcontent;//单元格中的值 introw,col,;//单元格所在行和列 intcolspan,rowspan;//单元格所跨越的行、列数 intflag;//单元格类型标识. } 其中,flag的值定义如下: ①flag=1,content的值为单元格中包含字符串内容; ②flag=2,表示单元格中包含超链接,其值为超链接地址; ③flag=3,表示content中的内容为对象,比如表单、图片等,其值为对象的名字; ④flag=4,表示content中的内容为嵌套的表格,其值为嵌套表格所在表格数组中的下标. 2)表格Table classTable{ introws,cols;//行、列数 LinkedList<Cell>cells;//组成表格的所有单元格 } 3)Web页面WebPage classWebPage{ intcurrentTablesNumber=0;//当前已保存的表格数量 Table[]tables;//页面包含的所有表格 } 使用DOM(DocumentObjectMode1)树对网页信息进行分析,将网页解析成由该网页所包含的表格组 成的数组构成的WebPage的一个实例对象