一种基于特征投票的文本分类方法.pdf
my****25
在线预览结束,喜欢就下载吧,查找使用更方便
相关资料
一种基于特征投票的文本分类方法.pdf
第36卷第9期计算机工程2010年5月Vol.36No.9ComputerEngineeringMay2010·人工智能及识别技术·文章编号:1000—3428(2010)09—0200—03文献标识码:A中图分类号:TP311一种基于特征投票的文本分类方法焦庆争1,2,蔚承建1(1.南京工业大学信息科学与工程学院,南京210009;2.安徽师范大学信息管理中心,芜湖241000)摘要:基于特征投票机制设计一种线性文本分类方法,运用信任机制理论分析文档类别对特征的信任关系,给出具体特征信任度的模型,并在N
一种基于特征重要度的文本分类特征加权方法.docx
一种基于特征重要度的文本分类特征加权方法前言随着互联网和数字化的发展,产生了海量的文本数据。文本分类作为文本数据挖掘的重要应用之一,具有广泛的应用前景。文本分类技术可以用于新闻分类、情感分析、文本推荐等领域。然而,在进行文本分类时,如何确定关键特征对分类精度的贡献,是一个关键的问题。本文将介绍一种基于特征重要度的文本分类特征加权方法。一、文本分类技术的发展文本分类是机器学习的一个重要分支,由于具有广泛应用的价值,近年来得到越来越广泛的应用,各类算法也应运而生。主流的文本分类方法包括朴素贝叶斯、支持向量机、
一种基于分类与筛选的信息增益文本特征选择方法及分类装置.pdf
本发明提供了一种基于分类与筛选的信息增益文本特征选择方法及分类装置,属于自然语言处理领域,该方法针对信息增益方法不适用于不均衡数据集、选择后特征冗余的问题,提出一种可应用于不均衡数据集的分类筛选信息增益方法。该方法通过计算各类文本数占总文本数的比例分配各个类别可选择的特征数目,保证了对小数据集特征的选择,以实现对不均衡数据集的特征选择;通过计算各特征在不同类别中单位文本数目词频的离散程度来实现特征筛选,减少对文本分类具有较小影响的冗余特征,降低特征子集的维度并提高分类的性能。实验结果显示无论是平均查准率、
一种基于分类与筛选的信息增益文本特征选择方法及分类装置.pdf
本发明提供了一种基于分类与筛选的信息增益文本特征选择方法及分类装置,属于自然语言处理领域,该方法针对信息增益方法不适用于不均衡数据集、选择后特征冗余的问题,提出一种可应用于不均衡数据集的分类筛选信息增益方法。该方法通过计算各类文本数占总文本数的比例分配各个类别可选择的特征数目,保证了对小数据集特征的选择,以实现对不均衡数据集的特征选择;通过计算各特征在不同类别中单位文本数目词频的离散程度来实现特征筛选,减少对文本分类具有较小影响的冗余特征,降低特征子集的维度并提高分类的性能。实验结果显示无论是平均查准率、
基于特征分布信息的文本分类特征筛选方法.pdf
本发明公开了一种基于特征分布信息的文本分类特征筛选方法,用于解决现有的文本分类特征筛选方法准确度差的技术问题。技术方案是首先对文档集中每一篇文档进行预处理;再将整个文档集合表示为向量空间模型VSM;构造特征词典;统计每个类Ci包含特征词t的文档数DF(t,Cj);计算出针对每个类Ci的归一化的tf*idf值,然后计算该特征词在每个类Ci内的离散度DIntra和平均类间离散度DInterAvg;计算文本特征空间中每个特征词tk在类别Ci中的权重wi(t);将全部特征词按照其在整个文档集的权重降序排列,进行特