预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共39页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

2.4概率模型 背景概念 •用户起始于信息需求,然后将这些需求转化为查询 表示。类似的,文档也可以转换成文档表示。 •信息检索系统试图来确定文档对信息需求的满足程 度。 布尔模型:检索式的析取范式 向量空间模型:文档向量和查询向量的相似度。 •给定查询表示和文档表示,系统只能给出文档内容 和信息需求是否相关的一个非确定性推断。 2011/11/13江西师范大学计算机信息工程学院 背景概念 •概率论可以为信息检索的非确定性推理提供一个理论 的基础。 •信息检索的过程具有的不确定性是重要前提。 •信息检索系统内在存在很多的不确定性 比如对某一信息需求既没有一个查询式是唯一的。 文档与查询是否“相关”也即文档是否能满足用户的需求也 没有一个明确的定义和判定标准。 •概率模型是在布尔逻辑模型的基础上为解决检索中存在的一些不 确定性而引入的,试图在概率论的框架下解决信息检索的问题。 2011/11/13江西师范大学计算机信息工程学院 背景理论 •最小错误率的贝叶斯决策理论 在分类问题中,尽量减少分类错误的概率,利用贝叶 斯公式得出使错误率为最小的分类规则。 两类问题的分类 类别1:w1,类别2:w2;描叙类别的特征(或观察值)X; 按照后验概率的大小做判决: P(w1|X)>P(w2|X)->X∈w>X∈w1 P(w1|X)<P(w2|X)->X∈w2 2011/11/13江西师范大学计算机信息工程学院 背景理论 •最小错误率的贝叶斯决策理论 举例:假设在某地区癌症细胞识别中,正常和异常两 类的先验概率分别为: 正常状态:P(w1)=0.9 异常状态:P(w2)=0.1 现有一待识别细胞,其观测值为X,实验测得对于正常 情况,P(X|w1)02)=0.2,对于异常情况,P(X|w2)04)=0.4, 使对该细胞X进行分类。 2011/11/13江西师范大学计算机信息工程学院 理论背景 •对查询对于查询q和文档集中的一篇文档d,假设变量 Rd,q(简称R)代表文档d和查询q是否相关,相关 记为1,不相关记为0. 两类问题的最小贝叶斯决策, 需要计算P(R=1|d,q),P(R=0|d,q),判断P(R=1|d, q)和P(R=0|d,q)的大小关系。 P(R=1|d,q)>P(R=0|d,q)d和q相关, P(R=1|d,q)<P(R=0|d,q)d和q不相关, 2011/11/13江西师范大学计算机信息工程学院 理论背景 •对查询对于查询q和文档集中的一篇文档d,假设变量 Rd,q(简称R)代表文档d和查询q是否相关,相关 记为1,不相关记为0. 系统不仅要得到是否相关,还要对相关性进行排序。 为了对相关性进行排序,实际计算 P(R=1|d,q)P(R=1|d,q) si(dim(d,q)= P(R=0|d,q)1P(R=1|d,q) 2011/11/13江西师范大学计算机信息工程学院 查询式与文档的相关度概率定义 •文档dj对于查询串q的相关度值定义为:文档与 查询相关的概率和文档与查询不相关概率的比值 P(R1|dj) sim(dj,q) P(R0|dj) 其中dj表示文档集合中的某篇文档,为该篇文档 的向量表示。R=1相关,R=0不相关。 dj 2011/11/13江西师范大学计算机信息工程学院 概率模型的理论 •概率模型基以基本假概率模型是基于以下基本假设: 文档对一个查询式的相关性与文档集合中的其他文档是 没有关系的,这点被称为概率模型的相关性独立原则; 文档和查询式中索引词与索引词之间是相互独立的; 文档和查询中的索引词权重都是二元的; 文档相关性是二值的,即只有相关和不相关两种,也就是 说,一篇文档要么属于理想文档集,要么不属于理想文 档集。 •正是由于这些假设,概率模型也被称为二值独立检索模型 (BinaryIndependentRetrivel,BIR)。 2011/11/13江西师范大学计算机信息工程学院 公式推导,简化 P(R1|dj) sim(dj,q) P(R0|dj) BayesruleP(d|R1)P(R1) j P(dj|R0)P(R0) 先验概率的比值对所有文档一样,忽略P(d|R1) j P(dj|R0) 2011/11/13江西师范大学计算机信息工程学院 公式推导,简化 P(dj|R1)P([t1,t2,...,tn]|R1) 词项之间互相独立假设n P(ti|R1) i1 g(d) 引入指示函数gi(dj)nij 1