基于heritrix的web信息抽取-豆柴文库

基于heritrix的web信息抽取.doc

2024-09-12

10金币

72KB

15页

天马****23

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

基于Heritrix的Web信息抽取.txt28生活是一位睿智的长者，生活是一位博学的老师，它常常春风化雨，润物无声地为我们指点迷津，给我们人生的启迪。不要吝惜自己的爱，敞开自己的胸怀，多多给予，你会发现，你也已经沐浴在了爱河里。基于..Heirx的..We rtib信息抽取陈俊彬曹树金中山大学资讯管理系广州5100 006 [摘要]针对现阶段Web信息抽取技术的不足，提出一种基于Heritrix的精确抽取方法，由三个分别独立的功能模块共同完成。与一般信息抽取不同，本方法注重于在精确抽取的前提下实现通用化，做到可以根据数据库表的字段来进行最小单位的信息抽取，并且较好地解决信息采集通用性和准确性之间的矛盾。.. [关键词]HrtiHMLasrWeb数据采集 eirx信息抽取..Tpre[分类号]G250．73 WebInfrtotatosdorti omainExrcinBaenHeirx eunahnChnJnbiCoSuji DepartmentofInformationManagement，SunYat—senUniversity，Guangzhou510006 [Abtathsaeitoueaehdoac ccrtifrainetatoaeoeirxac ccrigthhrafWeno src]TipprnrdcsmtofuaenomtoxrcinbsdnHrtiodnotesotgeobifrmaroxrcintcnlg．hytmiooeftrersetvdueeetfosaafifrtoxrcin，inetatoehooyTessescmpsdoheepciemol．Dif ffrnrmuulwyonomainetato thtdiounpeciionael llaeeraty．Icnetrattemiimuitofifortiocodigthefedoaln emehosfcsorsswsgnlitaxchnmunnmanacrnotilftbei daase． tba [KewrseirxifrtoxrcinHTprebifrtocusto yod]HrtinomainetatoMLasrWenomainaqiiin 的信息抽取技术需要用户的大量参与，但自动化程度不高；而自动化程度高的抽取技术其准确率和适应性较低，实用性较差。即使是机器学习，也要通过大量的 Web信息抽取(Webinformationextraction，WIE)的样本学习来提高获取规则的自动化程度，这意味着系目标是把文本里包含的信息进行结构化处理，转化成统需要经过较长时间的学习才能获得较好的查准率。特定的结构，以便于理解和利用。随着..Intemet的迅猛纵观信息抽取技术的发展历史，研究者们提出了发展，Web已经成为全球传播与共享科研、教育、商业不少优秀的抽取策略.。从实现方法的原理出发，可和社会信息等最重要和最具潜力的巨大信息源。面对以将信息抽取技术划分为4个类别：①基于自然语言如此巨大的互联网信息库，如何快速、有效、经济地得理解方式；②基于ontology方式；③基于网页结构特征到某个主题的所有相关信息就成了当前一个十分热门方式；④基于统计学习的方式。基于自然语言理解方的研究课题。与传统的信息资源相比，Web上信息资式的信息抽取在一定程度上借鉴了自然语言处理技源有着分布性、异构性、开放性、动态性和庞大性等特术，利用子句结构、短语和子句间的关系建立基于语法点，这些特点导致Web上数据的信息接口和组织形式和语义的抽取规则，实现信息抽取。其缺点是抽取速各不相同，也使得Web上的信息资源不能被有效的利度慢，使用范围窄，很难做到通用。基于ontology方式用。在这样的背景下，Web信息抽取技术成为了研究主要是利用对数据本身的描述信息实现抽取，对网页的热点。结构的依赖较少。只要事先创建的应用领域的ontolo- g)r足够强大，系统可以对某一应用领域中各种网页实 2艾献绿述现信息抽取。目前只能对特定领域构建，并且还只能采用半自动的方式由人工参与，这样使得该方法要求在..Web信息抽取领域中，信息抽取的准确性和通很高，工作量巨大。基于网页结构特征方式的特点用性之间的矛盾一直是该研究领域的难题。性能较好是根据Web页面的结构来定位信息，在信息抽取之前收稿ri期：20 008—07—2 22修日期：20 008—09—11本文起Ij：贞码：1 112—115本文责任编辑：易【三 112。LIBRARYANDINFORMATIONSERVICE。通过解析器将Web文档解析成语法树，然后通过自动或半自动的方式产生抽取规则，最终转化为对语法树的操作来实现信息的抽取，本