预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共81页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

提纲 „信息检索模型的概述 „布尔模型 „向量空间模型(VSM) „扩展的布尔模型 „潜在语义索引模型(LSI) „概率模型 „基于统计语言模型的信息检索模型 „基于本体论的信息检索模型 信息检索模型的概述 什么是模型? „模型是采用数学工具,对现实世界某种事物或 某种运动的抽象描述 „面对相同的输入,模型的输出应能够无限地逼 近现实世界的输出 „举例:天气的预测模型 „模型和实现的区别 „一个模型可以用多种方法实现 „例如:布尔模型可以用倒排文档(invertedfile)实 现,也可以用B-tree实现 信息检索模型 „四元组[D,Q,F,R(qi,dj)] „D:文档集的机内表示 „Q:用户需求的机内表示 „F:文档表示、查询表示和它们之间的关系的模型框 架(Frame) „R(qi,dj):给queryqi和documentdj评分 „信息检索模型决定于: „从什么样的视角去看待查询式和文档 „基于什么样的理论去看待查询式和文档的关系 „如何计算查询式和文档之间的相似度 模型分类 集合论 模糊集 扩展的布尔模型 信息检索模型 布尔代数 向量空间扩展的向量空间 概率隐性语义索引 知识神经网络 概率 人工智能 语言模型 基于本体论的模型推理网络 信念网络 布尔模型(BooleanModel) 布尔模型 „文档表示 „一个文档被表示为关键词的集合 „查询式表示 „查询式(Queries)被表示为关键词的布尔组合,用“与或非”连接 起来,并用括弧指示优先次序 „匹配 „一个文档当且仅当它能够满足布尔查询式时,才将其检索出 来 „不同的系统可以使用: „不同的去除停用词(stopwordremoval)策略和stemming策略 „索引中不同类型的辅助信息 „不同的实现方法 强调 „到目前为止,布尔模型是最常用的检索模型, 因为: „由于查询简单,因此容易理解 „通过使用复杂的布尔表达式,可以很方便地控制查 询结果 „相当有效的实现方法 „相当于识别包含了一个某个特定term的文档 „经过某种训练的用户可以容易地写出布尔查询 式 „布尔模型可以通过扩展来包含排序的功能,即 “扩展的布尔模型” 问题 „布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分 匹配,而完全匹配会导致太多或者太少的结果文档被返回 „非常刚性:“与”意味着全部;“或”意味着任何一个 „如果“我想要n个词中m个词同时出现的文档”,怎么表示? „不可能企望用户自己规定m值 „系统可以从m=n开始,然后逐渐减少m,但很麻烦 „很难表示用户复杂的需求 „很难控制被检索的文档数量 „原则上讲,所有被匹配的文档都将被返回 „很难对输出进行排序 „不考虑索引词的权重,所有文档都以相同的方式和查询相匹配 „很难进行自动的相关反馈 „如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询 式呢? 向量空间模型 统计模型 „基于关键词(一个文本由一个关键词列表组成) „根据关键词的出现频率计算相似度 „例如:文档的统计特性 „用户规定一个词项(term)集合,可以给每个词项附加 权重 „未加权的词项:Q=〈database;text;information〉 „加权的词项:Q=〈database0.5;text0.8;information0.2〉 „查询式中没有布尔条件 „根据相似度对输出结果进行排序 „支持自动的相关反馈 „有用的词项被添加到原始的查询式中 „例如:Q⇒〈database;text;information;document〉 统计模型中的问题 „怎样确定文档中哪些词是重要的词? „怎样确定一个词在某个文档中或在整个文档集 中的重要程度? „怎样确定一个文档和一个查询式之间的相似 度? „在WWW中,什么是文档集(collection),链 接、文档结构以及其它形式特征(如字体、颜 色等)对统计模型有何影响? 向量空间模型 „若干独立的词项被选作索引项(indexterms)or词表vocabulary „索引项代表了一个应用中的重要词项 „计算机科学图书馆中的索引项应该是哪些呢? 体系结构 总线 计算机 数据库 …. XML 计算机科学 文档集 文档集中的索引项 向量空间模型 „这些索引项是不相关的un-correlated(或 者说是正交的orthogonal),形成一个向 量空间vectorspace “计算机”“科学”“商务” 计算机科学文档集该文档集中的全部重要词项 向量空间模型 „实际上,这些词项是相互关联的 „当你在一个文档中看到“计算机”,非常有可 能同时看到“科学” „当你在一个文档中看