预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于本体的语义搜索研究综述摘要:基于本体的语义搜索将Web搜索带入一个新时代。它使我们能够在浩瀚的网页中更加快速准确地找到想要的信息。本体具有明确的概念描述基于本体的搜索能够评测关键词之间的语义差异从而在文档或者查询中找到更准确的结果。因为所选本体的不同基于本体的语义搜索方法也会不同。该文总结了多种不同的研究方法并根据搜索相关技术的分类标准进行了比较。最后通过这些比较找到今后进一步研究的方向。关键词:本体;语义搜索;概念;关键词中图分类号:TP311文献标识码:A文章编号:1009-3044(2015)02-0153-031引言语义网的目标是扩展现有的Web标准和技术实现自动化地处理Web语义[1]。传统的搜索引擎使用关键词检索用户需要的信息实际上在网页搜索过程中可以使用多种方式来表达查询将关键词映射要相关主题的语义层。在搜索过程中使用本体能够加强用户与计算机之间的语义沟通使查询结果更接近用户的需求。目前已经公布的基于本体的搜索引擎有很多。它们的应用领域和具体实现都有所不同但是它们的目标都是提高搜索的查全率和查准率。基于本体的语义搜索能更加智能地在Web查询过程中使用各种方法或结构。研究人员常用领域本体表达特定领域知识的概念和关系。本文将介绍这些搜索引擎利用领域本体处理查询请求所采用的不同方法。1)相关术语传统的搜索依据的是关键词是否在文档中出现。基于本体的语义搜索定义为利用领域本体的背景知识库进行信息检索的过程。领域本体是具有层次结构的术语集这些术语是描述此领域知识库的框架[2]。用实体、实例和属性来表示词语之间的关系或槽。基于本体的语义搜索的目的是最大化查准率和查全率。2分类标准本节介绍几种不同的基于本体的搜索的分类标准。分类标准是在搜索过程中的重要步骤包括:本体技术语义标注索引排序信息检索模型(IR模型)和性能改进。1)本体技术本体是实现语义Web的基础相关技术包括推理机标注工具基于本体的爬虫(2014届国际智能计算的应用会议中提出)和挖掘工具。在几种不同的本体描述语言里RDF和OWL得了广泛的认可。Java语言提供了JenaAPI和AJAX技术可以用来存储和处理RDF数据。2)语义标注概括地说语义标注是在文本中分配实体用以链接到它们的语义描述[15]。语义标注分为手动语义标注、半自动语义标注和自动语义标注三种类型。下面是语义标注的先决条件:(1)本体定义实体类;语义标注中可能涉及到这些类。(2)实体标识允许区分并链接到它们的语义描述。(3)一个实体描述的知识库。3)索引索引是为了更快的检索信息而进行的信息存储。一个搜索引擎必须保留在抓取过程中获得的所有内容并以索引的形式存储以便下次更容易地查找。索引的目的是为了加快匹配过程。索引的分类:(1)转发索引:存储每个文档的单词列表。(2)倒排索引:为每个单词存储所有文档的列表。(3)图索引:给定一个查询图查找索引并检索答案集验证哪些图包含查询图返回查询结果。4)排名排名取决于查询结果的排序过程。搜索引擎会请求匹配和并为查询结果进行排名。匹配是选择元素的子集进行评分。排名是由相关概念的相似度决定的。排名是在句法/语义映射完成后依据网页的评分进行计算得来的。最后将已经排序好的网页结果进行索引之后返回给网页的使用者。排名模型的类型如下:(1)句法排序模型:是依据查询关键词与搜索引擎数据库相匹配而进行的搜索从TF-IDF到谷歌PageRank这些著名的信息检索排名技术丰富了这种搜索的排名方法。(2)语义排序模型:搜索是基于结果的相关性缩小了语法和语义之间的差距根据相关性得到的结果集可以更好的满足用户的需求。5)信息检索模型(IR模型)IR模型的作用是提供一个形式化的信息发现过程。下面是3种IR模型:(1)布尔模型C一方面是基于关键词的查询另一方面用关键词的组合表示一个文档用关键词的逻辑描述表示一个查询(2)矢量模型C表示用户查询和文档中的所有关键词形成的空间矢量。(3)概率模型C采用基于概率理论的数学模型。6)性能改进基于本体的语义搜索方法的性能可以用一定的标准来衡量如查准率查全率F值和平均查准率。查准率和查全率的值介于0和1之间最大值为1。应用本体的背景知识库进行查询可以使查准率和查全率得到提升。3不同的搜索方法经过大量文献的阅读本文总结了14种不同的基于本体的搜索方法。依据上述分类标准进行