预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第23卷第2期青岛大学学报(自然科学版)Vol.23No.22010年6月JOURNALOFQINGDAOUNIVERSITY(NaturalScienceEdition)Jun.2010文章编号:10061037(2010)02004705doi:10.3969/j.issn.10061037.2010.02.012基于本体的Web表格信息抽取技术的研究*袁鸿雁(沈阳职业技术学院计算机系,沈阳110045)摘要:将本体与和Web信息抽取技术相结合,将信息抽取的重点放在特定的领域,利用表格属性定位、识别表格结构生成启发式规则,可以大大提高信息抽取的准确率。关键词:Web表格;本体;表格定位;表格结构识别中图分类号:TP391.13文献标志码:A据统计,互联网上约有52%的Web页面包含表格[1]。Web表格主要基于HTML,由于HTML只描述数据怎样显示而缺乏对数据本身的描述,再加上Web表格表现形式的复杂多样性,因此理解Web表格结构从中抽取出有效的信息就变得非常的困难,从Web表格中抽取信息也就成为Web信息抽取领域重要且有价值的研究课题之一。BUY研究小组将表格的信息抽取划分为表格理解、数据整合、信息抽取三个部分[2]。通过理解表格结构,可以识别表格里的属性和取值。H.Chen等[3]首次提出Web表格分析的过程分为表格定位、表格结构识别和属性–值对的提取,该文提出的算法相对较简单,但未给出实验结果。Tengli等[4]提出了一个Web表格信息自动抽取系统的构造方法。在表格结构识别中,该系统通过样本表格学习属性的词汇信息,然后通过向量空间模型对待抽取表格的单元格进行模糊匹配,从而识别属性单元格所在位置,达到定位属性和值的目的。这种方式的表格结构识别对领域知识依赖过强。王放等[5]提出了一种基于本体的Web表格信息抽取技术,该方法通过对本体的学习和积累,对表格的结构识别提供指导。本文提出了一种新的基于领域本体[6]的Web表格信息抽取方法。该方法可实现元素级别和实例级别的模式匹配并且对网页结构依赖很少,只要事先创建的应用领域ontology足够强大,系统就可以对该应用领域中的表格文本实现信息抽取,其中限定领域的思想提高了数据抽取的准确率。1Web表格信息抽取系统结构系统结构如图1所示。本系统对Web表格数据抽取工作分为3步进行:表格定位、表格结构识别、表格信息抽取。其工作过程为:待处理的包含表格的HTML文档首先进入表格定位模块,在此模块中滤除非数据表格和非用户感兴趣的数据表格等额外的信息,识别出满足要求的数据表格,然后进入表格结构识别模块,在该模块中识别出表格的展开方式和表格属性行(列)、数据单元格所在的位置,最后按照抽取规则完成表格的属性与本体中概念的映射,抽取出所需要的数据,存入数据库中。由于HTML文档的获取以及本体的建立不是本文研究的内容,因此在本文中未涉及。图1系统总体结构图*收稿日期:20091003作者简介:袁鸿雁(1973),女,硕士,讲师,主要从事数据库系统及数据挖掘技术的研究。48青岛大学学报(自然科学版)第23卷2表格定位本文通过构造一些启发式规则和应用本体来定位及理解表格。HTML页面中表格是由<table>[7]元素标识的。在很多Web站点是商业站点,用<table>元素标识的除了称之为真表格的数据表格之外还包含导航栏、广告或其他站点的链接等其他用来进行页面布局的非数据表格,非数据表格又被称为假表格[8]。另一种情况是并不是所有的Web页面中的数据表格都是感兴趣的,有时即便是一个领域相关的Web页面也可能包含几个内容跟研究领域无关的数据表格。为了识别给定Web页面中感兴趣的数据表格,首先分析Web网页并且把在该页面中的所有元素用DOM树表示[9],树中的每个结点包含了一对标记间的所有的字符,结点的名字为对应标记的名字。已经知道要定位的表格信息存在于<table></table>结点之间的内容块中,所以只关心table结点。以图2所示的中文二手房网页为例,查看其源代码,一共得到24个table结点。为了方便说明,在每个<table>结点都标上了序号,如第一个<table>结点,标注为<table1>。整个页面由四个区域构成,其中区域1包括4个<table>结点,区域2包含2个<table>结点,区域3包含11个<table>结点,也是我们研究的目标数据表格图2HTML页面区域17所在的区域,区域4包含7个<table>结点。通过对DOM树中table结点的依次遍历滤除非数据表格。在该过程中使用的启发式规则如下:规则1如果表格中包含<caption>或<th>标记,则该表格是数据表格。规则2表格大小至少是3行3列。规则3如果表格中包含大量的超级链