基于信息量的Web表格信息抽取方法-豆柴文库

基于信息量的Web表格信息抽取方法.pdf

2024-07-08

10金币

228KB

5页

qw****27

实名认证

内容提供者

1/5

2/5

3/5

4/5

5/5

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

第３５卷第４期西南师范大学学报（自然科学版）２０１０年８月Ｖｏｌ．３５Ｎｏ．４ＪｏｕｒｎａｌｏｆＳｏｕｔｈｗｅｓｔＣｈｉｎａＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）Ａｕｇ．２０１０文章编号：１０００－５４７１（２０１０）０４－０１５９－０５＊基于信息量的Ｗｅｂ表格信息抽取方法曾广朴，陶维安长江师范学院数学与计算机学院，重庆涪陵４０８１００摘要：提出一种基于有效信息量的Ｗｅｂ表格信息抽取模型，该模型主要由表格定位和表格信息抽取二个模块组成，根据Ｗｅｂ表格的内容特征来识别主题表格，通过检查格式、语法的特征将表格分割成值域与属性域．实验结果表明该模型能够很好地应用于Ｗｅｂ表格信息的抽取．关键词：Ｗｅｂ表格；有效信息率；文档对象模型；信息抽取中图分类号：ＴＰ３１１．１３文献标识码：Ａ随着Ｉｎｔｅｒｎｅｔ的高速发展，Ｗｅｂ已经成为一个巨大、分布和共享的信息空间．面对海量的数据资源，现今的搜索引擎技术在处理信息的粒度上还不能达到直接定位到所需数据所在准确位置的目的．因此，随着用户对Ｗｅｂ信息的需求越来越高，Ｗｅｂ信息抽取技术应运而生．表格作为一种简洁有效的数据信息表达方式，在各领域的Ｗｅｂ页面中都广泛应用，比如：网上购物、股票报价、航班时刻表等．因此，从Ｗｅｂ页面所包含的表格中提取信息成为Ｗｅｂ信息抽取领域中一个重要且有价值的研究课题［１］．本文针对Ｗｅｂ表格信息抽取的一些关键技术和实现方法进行研究探讨，其目的是提出一种以Ｗｅｂ表格为信息抽取对象的、适用于各种网页结构、能够较好并完整地抽取出表格中的单元信息和结构信息的表格信息抽取引擎．１相关工作现状Ｗｅｂ表格信息抽取的提出始于上世纪九十年代末，近年来得到了一些学者和研究机构的关注，主要采用的方法有手工编写代码的方法、机器学习方法和启发式自动化方法［２］．这些方法各有特点，手工编写代码方法表达能力强，但需要用户编写复杂的代码，且由于网页经常变化而维护困难；包装器归纳方式是目前国内外在信息抽取领域用得较多的一种方式，包装器归纳法是一种自动构造包装器的技术，主要思想是用归纳式学习方法生成抽取规则，用户在一系列的网页中标记出需要抽取的数据［３］，系统在这些例子的基础上归纳出规则，这些规则的精确度如何取决于例子的质量如何；本体论方法是一种很有前景的方法，但关键问题是如何有效地创建本体．目前，在该方法所需本体的创建大多需部分手工完成；半自动的方法利用格式信息半自动地抽取Ｗｅｂ结构信息，该方法只能抽取部分ＨＴＭＬ表格；启发式自动化方法提出了一种抽取表格数据的自动方法，但没有给出具有嵌套的表头结构的表格的转换方法，并且它不能转换无标志表头的ＨＴＭＬ表格［４］．本文中采用的是基于表格结构分析的方法来构造抽取模型．主要通过分析表格结构，将ＨＴＭＬ标记定义的表格转化为一种逻辑表格结构，进而提取表格信息．２基于信息量的Ｗｅｂ表格信息抽取２．１设计思想一个Ｗｅｂ页面中通常包含一个或多个ＨＴＭＬ表格，一个表格又由一个或多个单元格组成．因此，定＊收稿日期：２００９－１２－２９基金项目：重庆市教委科学技术研究项目（ＫＪ０９１３０９）．作者简介：曾广朴（１９６６－），男，重庆人，讲师，主要从事网络信息系统及数据挖掘方面的研究．０６１西南师范大学学报（自然科学版）投稿网址ｈｔｔｐ：／／ｘｂｇｊｘｔ．ｓｗｕ．ｃｎ第３５卷义如下数据结构：１）单元格ｃｌａｓｓＣｅｌｌ｛Ｓｔｒｉｎｇｃｏｎｔｅｎｔ；／／单元格中的值ｉｎｔｒｏｗ，ｃｏｌ，；／／单元格所在行和列ｉｎｔｃｏｌｓｐａｎ，ｒｏｗｓｐａｎ；／／单元格所跨越的行、列数ｉｎｔｆｌａｇ；／／单元格类型标识．｝其中，ｆｌａｇ的值定义如下： ①ｆｌａｇ＝１，ｃｏｎｔｅｎｔ的值为单元格中包含字符串内容； ②ｆｌａｇ＝２，表示单元格中包含超链接，其值为超链接地址； ③ｆｌａｇ＝３，表示ｃｏｎｔｅｎｔ中的内容为对象，比如表单、图片等，其值为对象的名字； ④ｆｌａｇ＝４，表示ｃｏｎｔｅｎｔ中的内容为嵌套的表格，其值为嵌套表格所在表格数组中的下标．２）表格ＴａｂｌｅｃｌａｓｓＴａｂｌｅ｛ｉｎｔｒｏｗｓ，ｃｏｌｓ；／／行、列数ＬｉｎｋｅｄＬｉｓｔ＜Ｃｅｌｌ＞ｃｅｌｌｓ；／／组成表格的所有单元格｝３）Ｗｅｂ页面ＷｅｂＰａｇｅｃｌａｓｓＷｅｂＰａｇｅ｛ｉｎｔｃｕｒｒｅｎｔＴａｂｌｅｓＮｕｍｂｅｒ＝０；／／当前已保存的表格数量Ｔａｂｌｅ［］ｔａｂｌｅｓ；／／页面包含的所有表格｝使用ＤＯＭ（ＤｏｃｕｍｅｎｔＯｂｊｅｃｔＭｏｄｅ１）树对网页信息进行分析，将网页解析成由该网页所包含的表格组成的数组构成的ＷｅｂＰａｇｅ的一个实例对象

相关资料

基于信息量的Web表格信息抽取方法.pdf

2024-07-08

228KB

基于树结构的Web表格信息抽取方法.docx

基于树结构的Web表格信息抽取方法基于树结构的Web表格信息抽取方法摘要：表格是Web页面上常用的一种数据展示形式，其中包含了大量的信息。然而，由于表格的结构复杂多变，直接从Web表格中提取有用信息是一项具有挑战性的任务。本论文提出了一种基于树结构的Web表格信息抽取方法，通过构建表格解析树，并应用一系列的算法和规则，实现了对Web表格的自动解析和信息抽取。1.引言Web表格作为一种常见的数据展示形式，广泛应用于电子商务、新闻、政府公告等网站。然而，由于各种原因导致的表格结构复杂多变，直接从Web表格中提

2024-10-24

11KB

基于表格语义的Web信息抽取方法的研究.docx

基于表格语义的Web信息抽取方法的研究随着Web信息化程度的提高，大量的信息被发布在Web上，由于Web中的信息通常呈现出半结构化的形式，如网页中的表格等，因此信息抽取成为Web应用中至关重要的技术之一。表格作为Web信息的一个重要载体，其内容提供了丰富的、具有一定语义的信息资源，因此基于表格语义的Web信息抽取方法备受关注。现有的基于表格语义的Web信息抽取主要依赖于HTML语义标签、颜色、字体大小、表格结构等信息，其中，HTML语义标签为最重要的信息之一，是Web抽取的主要依据之一，但其语义标签的不确

2024-11-14

10KB

基于Web结构的表格信息抽取研究.docx

基于Web结构的表格信息抽取研究随着Web技术的不断发展和普及，表格作为一种常见的Web页面元素，在Web页面中越来越普遍。但是，大多数Web页面中的表格中包含着海量的非结构化的数据，对于使用这些数据的人来说非常困难。为了解决这个问题，表格信息抽取技术应运而生。本文将从定义、方法和应用等方面进行探讨。一、定义表格信息抽取是一种将Web页面中的表格数据转化为结构化格式的技术，以便于数据的分析和应用。它主要包括两个任务：表格定位和表格内容抽取。表格定位是指在Web页面中精确定位到表格区域，以便于后续的表格内容

2024-10-15

11KB

基于本体的Web表格信息抽取技术的研究.pdf

第23卷第2期青岛大学学报(自然科学版)Vol.23No.22010年6月JOURNALOFQINGDAOUNIVERSITY(NaturalScienceEdition)Jun.2010文章编号:10061037(2010)02004705doi:10.3969/j.issn.10061037.2010.02.012基于本体的Web表格信息抽取技术的研究*袁鸿雁(沈阳职业技术学院计算机系,沈阳110045)摘要:将本体与和Web信息抽取技术相结合,将信息抽取的重点放在特定的领域

2024-07-08

337KB