预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局*CN103106275A*(12)发明专利申请(10)申请公布号(10)申请公布号CNCN103106275103106275A(43)申请公布日2013.05.15(21)申请号201310050583.4(22)申请日2013.02.08(71)申请人西北工业大学地址710072陕西省西安市友谊西路127号(72)发明人李思男李战怀李宁(74)专利代理机构西北工业大学专利中心61204代理人王鲜凯(51)Int.Cl.G06F17/30(2006.01)权权利要求书1页利要求书1页说明书7页说明书7页附图1页附图1页(54)发明名称基于特征分布信息的文本分类特征筛选方法(57)摘要本发明公开了一种基于特征分布信息的文本分类特征筛选方法,用于解决现有的文本分类特征筛选方法准确度差的技术问题。技术方案是首先对文档集中每一篇文档进行预处理;再将整个文档集合表示为向量空间模型VSM;构造特征词典;统计每个类Ci包含特征词t的文档数DF(t,Cj);计算出针对每个类Ci的归一化的tf*idf值,然后计算该特征词在每个类Ci内的离散度DIntra和平均类间离散度DInterAvg;计算文本特征空间中每个特征词tk在类别Ci中的权重wi(t);将全部特征词按照其在整个文档集的权重降序排列,进行特征筛选时,优先保留排位靠前的特征词。该方法在特征分布系统的基础上,将特征分布系统运用到特征筛选过程中,提高了文本分类效率和准确率。CN103106275ACN1036275ACN103106275A权利要求书1/1页1.一种基于特征分布信息的文本分类特征筛选方法,其特征在于包括以下步骤:(1).对文档集中每一篇文档进行分词、去除停用词以及取词干处理;(2).将整个文档集合表示为向量空间模型VSM;(3).从文档集合中抽取所有的特征词,构造特征词典;(4).统计文本特征空间中每个特征词t在每篇文档dj中出现的频率TF(t,dj),以及在每个类Ci中出现的频率TF(t,Ci),同时统计每个类Ci包含特征词t的文档数DF(t,Cj);(5).根据步骤(4)得到的信息,对于每个特征词tk,首先计算出针对每个类Ci的归一化的tf*idf值,然后计算该特征词在每个类Ci内的离散度DIntra和平均类间离散度DInterAvg;(6).根据步骤(4)、步骤(5)步得到的信息,利用下式计算文本特征空间中每个特征词tk在类别Ci中的权重wi(t);wi(t)=tf*idf*DInterAvg*(1-DIntra)将特征词tk在每个类别中的权重求和,即为该特征词在整个文档集的权重,即特征词tk的TDFS值;(7).将全部特征词按照其在整个文档集的权重降序排列,进行特征筛选时,优先保留排位靠前的特征词。2CN103106275A说明书1/7页基于特征分布信息的文本分类特征筛选方法技术领域[0001]本发明涉及一种文本分类特征筛选方法,特别是涉及一种基于特征分布信息的文本分类特征筛选方法。背景技术[0002]随着信息和网络技术的发展,在互联网上,每天都有大量的电子文档如新闻、邮件、微博等产生。文本自动分类作为一种高效地对大量文档进行分类管理的方法,已经在很多领域被广泛的使用。[0003]随着信息量的爆炸性增长,自动文本分类面临的一个主要问题是如何处理大量文本数据产生的高维文本向量特征空间。过高的文本向量特征空间将会对文本分类方法产生两个不利影响:(1)很多比较成熟的方法在高维空间内无法进行优化,进而无法应用于文本分类中。(2)由于分类器是通过训练集训练而得,维度过高的文本向量空间将不可避免地导致过拟合现象发生[1]。文本向量空间中,大部分维度与文本分类并不相关,甚至掺杂较多影响文本分类精度的噪声数据[2]。文本特征筛选,依据某种特征筛选算法,从原始的特征空间中选择出一部分更具代表性的文本特征构成一个新的维度较低的特征空间,达到降维的目的。该方法是解决文本分类中文本向量特征空间维度过高问题的行之有效的方法。文本特征筛选的目的是要提高文本分类工作效率和算法的执行效率。很多实验证明,在大多数情况下,主动对特征空间进行约减会在较少的分类精度损失下获得很大的性能提升[3]。[0004]现有的文本分类特征筛选算法主要有文档频率(DF)、信息增益(IG)、信息增益率(GR)、卡方检验(CHI)、互信息(MI)和Gini索引等[3,4]。下面对其中的几项在文本分类中效果较好的技术进行简要介绍:[0005]文档频率(DF):文档频率是指对于给定特征t,在文档集合中包含t的文档数目。其基本假设是稀有特征对于类别预测是没有帮助的,或者不会影响整体性能。文档频率的优点:由于其实现简单、计算量小,所以特征选择速度很快,且实际效果也不错;缺点:稀有的特征可能在