一种基于分类与筛选的信息增益文本特征选择方法及分类装置.pdf
mm****酱吖
亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
一种基于分类与筛选的信息增益文本特征选择方法及分类装置.pdf
本发明提供了一种基于分类与筛选的信息增益文本特征选择方法及分类装置,属于自然语言处理领域,该方法针对信息增益方法不适用于不均衡数据集、选择后特征冗余的问题,提出一种可应用于不均衡数据集的分类筛选信息增益方法。该方法通过计算各类文本数占总文本数的比例分配各个类别可选择的特征数目,保证了对小数据集特征的选择,以实现对不均衡数据集的特征选择;通过计算各特征在不同类别中单位文本数目词频的离散程度来实现特征筛选,减少对文本分类具有较小影响的冗余特征,降低特征子集的维度并提高分类的性能。实验结果显示无论是平均查准率、
一种基于分类与筛选的信息增益文本特征选择方法及分类装置.pdf
本发明提供了一种基于分类与筛选的信息增益文本特征选择方法及分类装置,属于自然语言处理领域,该方法针对信息增益方法不适用于不均衡数据集、选择后特征冗余的问题,提出一种可应用于不均衡数据集的分类筛选信息增益方法。该方法通过计算各类文本数占总文本数的比例分配各个类别可选择的特征数目,保证了对小数据集特征的选择,以实现对不均衡数据集的特征选择;通过计算各特征在不同类别中单位文本数目词频的离散程度来实现特征筛选,减少对文本分类具有较小影响的冗余特征,降低特征子集的维度并提高分类的性能。实验结果显示无论是平均查准率、
基于特征分布信息的文本分类特征筛选方法.pdf
本发明公开了一种基于特征分布信息的文本分类特征筛选方法,用于解决现有的文本分类特征筛选方法准确度差的技术问题。技术方案是首先对文档集中每一篇文档进行预处理;再将整个文档集合表示为向量空间模型VSM;构造特征词典;统计每个类Ci包含特征词t的文档数DF(t,Cj);计算出针对每个类Ci的归一化的tf*idf值,然后计算该特征词在每个类Ci内的离散度DIntra和平均类间离散度DInterAvg;计算文本特征空间中每个特征词tk在类别Ci中的权重wi(t);将全部特征词按照其在整个文档集的权重降序排列,进行特
基于信息增益特征选取和覆盖的中文文本分类.docx
基于信息增益特征选取和覆盖的中文文本分类随着文本数量的不断增加以及文本分类的多种应用需求,文本分类技术变得越来越重要。中文文本分类是其中的一个重要分支,其主要目的是将汉语文本按照一定的分类标准进行分类。为了提高中文文本分类的准确性和效率,特征选取和覆盖是两个重要的研究方向。特征选取是指从原始特征中选择最有意义的一些特征,以提高分类器的性能。信息增益是一种可靠的特征选择方法,它通过计算每个特征对分类的重要性来进行特征选择。信息增益越高的特征说明它在分类中的贡献越大。因此,利用信息增益对中文文本进行特征选择可
文本分类中一种基于互信息改进的特征选择方法.docx
文本分类中一种基于互信息改进的特征选择方法基于互信息的特征选择方法在文本分类中起到了重要的作用。本文将介绍互信息的概念、特征选择的定义,以及基于互信息的特征选择方法的原理和应用。首先,我们会详细阐述互信息的概念和计算方法。接着,我们会介绍特征选择的定义和意义。然后,我们会详细讲解基于互信息的特征选择方法的原理和步骤。最后,我们会通过实例分析介绍这种方法在文本分类中的应用和效果。一、互信息的概念和计算方法互信息是信息论中的一个概念,用于衡量两个随机变量之间的相关性。它的定义如下:互信息(I(X;Y))=∑∑