预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于本体的web信息抽取及本体的构建实现研究 贾赛1,乔鸿2 (1.山东师范大学管理与经济学院管理科学与工程系,山东济南250014;2.山东师范大学管理与经济学院管理科学与工程系,山东济南250014) 摘要:基于本体的web信息抽取技术是一种当前热门的信息技术,对比两种基于本体的web信息抽取模型,为用户和应用程序服务;之后从本体构建的角度对他们进行微博人物信息实例分析,本体的设计与实现都是对他们的权衡指标,指导信息抽取行为。 关键字:web信息抽取;本体;抽取模型;微博 中图分类号:TP393 Ontology-BasedInformationExtractionfromWebSourcesandRealizationofOntologyConstruction JIASai1,QIAOHong2 (1.SchoolofManagementandEconomics,ShandongNormalUniversity,JinanShandong250014,China;2.SchoolofManagementandEconomics,ShandongNormalUniversity,JinanShandong250014,China) Abstract:Thetechnologyofontology-basedinformationextractionisoneofthecurrentpopularinformationtechnologytocontrastthetwomodelsofontology-basedinformationextractionfortheuserandapplicationservice.Thenfromtheangleofontologyconstructionwecanusetheinstanceanalysisofmicroblogpersonalinformationtobalancethedesignandrealizationofontologymethod,directactivityofinformationextraction. Keywords:WebInformationExtraction;Ontology;ExtractionModel;MicroBlog 可以看到,在信息时代的今天,信息的增长速度已经是让我们瞠目结舌,随着web的发展,在web上的各种各样的信息也以不同的形式分布,我们该如何在这些繁多的,无结构的web信息中找到我们真正需要的,就成了我们现在急需要解决的问题;web信息抽取就是为了这个目的而存在,把web中的信息变成结构化的,更有语义的模式结构。而在web信息抽取技术中,基于本体的web信息抽取是其中一个比较重要的方向,它的实现可以帮助用户更方便地在信息海洋中找到自己需要的信息,减少应用程序的资源浪费,适合人们的需求。 1相关概念 1.1本体 本体(Ontology)的概念最初起源于哲学领域,20世纪70年代末JohnMcCarthy将这个哲学术语引入到计算机领域,在人工智能界,最早给Ontology定义的是Neches等人。他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则定义”。1993年,Gruber给出了Ontology的一个最为流行的定义[1-2],即“Ontology是概念模型的明确规范说明”。Ontology的目标是捕获相关领域的知识,提出供该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同的层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义。 1.2领域本体 领域本体(DomainOntology),是专业性的本体,描述的是特定领域中的概念和概念之间的关系,提供了某个专业学科领域中概念的词表以及概念间的关系,或在该领域里占主导地位的理论,能够独立的存在和被使用。 1.3web信息抽取 web信息抽取(WebInformationExtraction)是将web作为信息源的一类信息抽取。简单的说,web信息抽取是指从web页面中抽取用户感兴趣的信息而过滤掉不相关的信息,具体的是指研究如何将分散在半结构化web页面中的信息提取出来,并以结构化、语义更为清晰的模式表示,它为用户在web中查询数据、应用程序直接利用web数据提供了便利[3]。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。其主要功能就是把信息点从各种各样的文档中抽取出来,然后以统一的形式集成在一起。 2基于领域本体的web信息抽取 这里我们研究的是基于领域本体的web信息抽取,这也是现在应用比较广泛,相对比较成熟的一种技术实现;基于领域本体的web信息抽取的一个重要特点是具有较强的