预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

贝叶斯分类器 一、朴素贝叶斯分类器原理 目标: 计算。注:t是一个多维的文本向量 分析: 由于数据t是一个新的数据,无法在训练数据集中统计出来。因此需要转换。根据概率论中的贝叶斯定理 将的计算转换为: (1) 其中,表示类Cj在整个数据空间中的出现概率,可以在训练集中统计出来(即用Cj在训练数据集中出现的频率来作为概率.但和仍然不能统计出来。 首先,对于,它表示在类中出现数据t的概率。根据“属性独立性假设”,即对于属于类的所有数据,它们个各属性出现某个值的概率是相互独立的.如,判断一个干部是否是“好干部”(分类)时,其属性“生活作风=好”的概率(P(生活作风=好|好干部))与“工作态度=好”的概率(P(工作态度=好|好干部))是独立的,没有潜在的相互关联.换句话说,一个好干部,其生活作风的好坏与其工作态度的好坏完全无关。我们知道这并不能反映真实的情况,因而说是一种“假设”.使用该假设来分类的方法称为“朴素贝叶斯分类"。 根据上述假设,类中出现数据t的概率等于其中出现t中各属性值的概率的乘积。即: (2) 其中,是数据t的第k个属性值. 其次,对于公式(1)中的,即数据t在整个数据空间中出现的概率,等于它在各分类中出现概率的总和,即: (3) 其中,各的计算就采用公式(2)。 这样,将(2)代入(1),并综合公式(3)后,我们得到: (4) 公式(4)就是我们最终用于判断数据t分类的方法.其依赖的条件是:从训练数据中统计出和. 当我们用这种方法判断一个数据的分类时,用公式(4)计算它属于各分类的概率,再取其中概率最大的作为分类的结果。 改进的P(t|Cj)的计算方法: 摒弃t(t1,t2,t3,)中分量相互独立的假设, P(t1,t2,t3,|Cj)=P(t1|Cj)*P(t2|t1,Cj)*P(t3|t1,t2,Cj) 注意: P(t3|t1,t2,Cj) = = = 此结果的含义是在某类Cj中在t1、t2后t1、t2、t3出现的概率 主要思想:在大规模的语料(或整个门户网站的分类结果中)上寻找支持度和置信度均大于其各自的阈值的频繁项集(关键词组),从而进一步去确定这些频繁项集(关键词组)的概率,对于小于阈值的项集中的关键字认为则认为是相互独立的. 注:分析的结果中的每个频繁项集中的关键词不宜太多(这个可以通过阈值来限制);分析的结果在一定时间内是比较稳定的而且是收敛的;分析结果可以形成多个“相关性词袋”。 ‘相关性词袋’比‘近义词词袋’更接近人的思维也更接近客观实际同时不依赖于人的主观思维和大量的标注劳动,如:姚明,篮球不同属于一个近义词词袋,但很有可能在同一个相关性词袋。克服了人标注的不完备性。 二、文本分类的具体方法 文本分类中,数据是指代表一篇文本的一个向量。向量的各维代表一个关键字的权重。 注意:权重可以通过TF/IDF方法来确定 训练文本中,每个数据还附带一个文本的分类编码.对此我们有两个方面的工作: 分类器学习:即从训练数据集中统计和,并保存起来。(保存到一个数据文件中,可以再次加载)。在分类器的程序中,需要有表达和保存这些概率数据的变量或对象。 分类识别:从一个测试文档中读取其中的测试数据项,识别他们的分类,并输出到一个文件中。 但文本分类有一个特殊情况:各属性的值不是标准值,不像“性别”这样的属性。因此在查找时会遇到麻烦:新数据的值可能在训练数据中从未出现过。这个问题的另一方面是:训练数据中各属性(分别对应一个关键词)的值太分散,几乎不可能出现某个关键词在多篇文章中的权重相同的情况.这样,太多、太分散,没有统计上的意义。 这一问题的处理方法是:将各关键词的权重分段:即将权重的值域分成几个段,每段取其中数值的平均值作为其标准值.第一种方法是,直接对所有训练数据的属性值进行分段,如对第k个属性,将其值域分为(0~0。1),(0。1~0。2),…,(0。9~1),各段分别编号为0,1,…9.一个数据的该属性值为0.19,则重设该属性值为它所处的分段编号,即1。 另一种方法同样进行分段,但分段后计算各段的平均值作为各段的标准值。根据具体数据相应属性的值与各分段标准值的接近程度,重新设置数据该属性的值。如对第k个属性,将其值域分为(0~0。1),(0。1~0.2),…,(0。9~1),假设(0。1~0。2)的平均值为0.15,(0.2~0.3)的平均值为0.22,而一个数据的该属性值为0.19,则该数据的该属性值与0.22更接近,应该重设为0。22。这就是我们要采用的方法。 下一个问题是,以什么作为分段标准?如果按平分值域的方法,则可能数据在值域各段中的分别非常不均匀,会造成在数据稀少的值域中失去统计意义。因此一个方法是,按照分布数据均匀为标准进行分段划分。假设有N个数据,将属性值域分为M段。对属性k