基于特征分布信息的文本分类特征筛选方法.pdf
景山****魔王
在线预览结束,喜欢就下载吧,查找使用更方便
相关资料
基于特征分布信息的文本分类特征筛选方法.pdf
本发明公开了一种基于特征分布信息的文本分类特征筛选方法,用于解决现有的文本分类特征筛选方法准确度差的技术问题。技术方案是首先对文档集中每一篇文档进行预处理;再将整个文档集合表示为向量空间模型VSM;构造特征词典;统计每个类Ci包含特征词t的文档数DF(t,Cj);计算出针对每个类Ci的归一化的tf*idf值,然后计算该特征词在每个类Ci内的离散度DIntra和平均类间离散度DInterAvg;计算文本特征空间中每个特征词tk在类别Ci中的权重wi(t);将全部特征词按照其在整个文档集的权重降序排列,进行特
一种基于分类与筛选的信息增益文本特征选择方法及分类装置.pdf
本发明提供了一种基于分类与筛选的信息增益文本特征选择方法及分类装置,属于自然语言处理领域,该方法针对信息增益方法不适用于不均衡数据集、选择后特征冗余的问题,提出一种可应用于不均衡数据集的分类筛选信息增益方法。该方法通过计算各类文本数占总文本数的比例分配各个类别可选择的特征数目,保证了对小数据集特征的选择,以实现对不均衡数据集的特征选择;通过计算各特征在不同类别中单位文本数目词频的离散程度来实现特征筛选,减少对文本分类具有较小影响的冗余特征,降低特征子集的维度并提高分类的性能。实验结果显示无论是平均查准率、
一种基于分类与筛选的信息增益文本特征选择方法及分类装置.pdf
本发明提供了一种基于分类与筛选的信息增益文本特征选择方法及分类装置,属于自然语言处理领域,该方法针对信息增益方法不适用于不均衡数据集、选择后特征冗余的问题,提出一种可应用于不均衡数据集的分类筛选信息增益方法。该方法通过计算各类文本数占总文本数的比例分配各个类别可选择的特征数目,保证了对小数据集特征的选择,以实现对不均衡数据集的特征选择;通过计算各特征在不同类别中单位文本数目词频的离散程度来实现特征筛选,减少对文本分类具有较小影响的冗余特征,降低特征子集的维度并提高分类的性能。实验结果显示无论是平均查准率、
基于条件信息熵的超高维分类数据特征筛选.docx
基于条件信息熵的超高维分类数据特征筛选基于条件信息熵的超高维分类数据特征筛选摘要:随着数据技术的快速发展,高维数据集越来越常见。对于分类任务来说,高维数据集给特征筛选带来了巨大的挑战。特征筛选是为了找到最具有代表性和区分度的特征,以提高分类性能。本论文提出了一种基于条件信息熵的超高维分类数据特征筛选方法,该方法可以有效地降低特征维度,提高分类性能。实验结果表明,该方法在不同数据集上都取得了比传统方法更好的分类性能。1.引言在现实世界中,数据集通常具有大量的特征,这些特征包含了大量的冗余和噪声信息,对分类任
基于数据分布特征的文本分类研究的开题报告.docx
基于数据分布特征的文本分类研究的开题报告一、选题背景与意义文本分类是自然语言处理领域中的一个重要研究方向,其吸引了大量研究人员的关注。文本分类的目的是将文本划分到不同的预定义类别中。文本分类广泛应用于文本检索、信息检索以及文本自动分类等领域。但是目前存在的文本分类方法普遍存在一个问题:对于数据分布特征不明显的数据集,分类效果往往不佳。因此,基于数据分布特征的文本分类研究具有重要的研究意义。二、研究内容与技术路线本研究的主要研究内容是为了解决文本分类中存在的问题,提出一种针对数据分布特征的文本分类方法。具体