预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第36卷第9期计算机工程2010年5月 Vol.36No.9ComputerEngineeringMay2010 ·人工智能及识别技术·文章编号:1000—3428(2010)09—0200—03文献标识码:A中图分类号:TP311 一种基于特征投票的文本分类方法 焦庆争1,2,蔚承建1 (1.南京工业大学信息科学与工程学院,南京210009;2.安徽师范大学信息管理中心,芜湖241000) 摘要:基于特征投票机制设计一种线性文本分类方法,运用信任机制理论分析文档类别对特征的信任关系,给出具体特征信任度的模型, 并在Newsgroup、复旦中文分类语料、Reuters-215783个广泛使用且具有不同特性的语料集上与传统方法进行比较。实验结果表明,该方 法分类性能优于传统方法且稳定、高效,适用于大规模文本分类任务。 关键词:文本分类;特征投票;经验概率;自然语言处理 TextCategorizationMethodBasedonFeaturesVote JIAOQing-zheng1,2,WEICheng-jian1 (1.CollegeofInformationScienceandEngineering,NanjingUniversityofTechnology,Nanjing210009; 2.InformationManagementCenter,AnhuiNormalUniversity,Wuhu241000) 【Abstract】Thispaperdiscussesatextcategorizationapproachbasedonfeaturesvote,whichislinearaswellashighefficient.Itusesthetrust mechanismtheorytoanalyzethetrustrelationbetweenfeaturesanddocumentclasses,andgivesthemodeltocalculatethetrustvalues.Inthe comparisonexperiments,Newsgroup,FudanChineseevaluationdatacollectionandReuters-21578areusedtoevaluatetheeffectivenessofthe techniques.Experimentalresultsshowthemethodcanimprovetheperformancefortextcategorization,andissuitableforlarge-scaletext categorization. 【Keywords】textcategorization;featuresvote;empiricalprobability;naturallanguageprocessing 1概述越信任,在判别测试文档为i类时,特征对i类的贡献也越大; [1] 自动文本分类是一种有监督的学习任务,即根据已分同时,特征信任值与特征平均频率TF=×1/C∑TFk呈线性增 类的训练文档集合,对未分类文档分配类标签。近年来,越 加的关系,例如,在其他条件同等情况下,假如TFA为10, 来越多的统计理论和机器学习方法用于文本自动分类,文 TFB为5,那么对特征A比对特征B更信任。当然,这种简 献[1-2]对主要分类方法做了详细论述。虽然文本分类方法很 单的直觉观存在很大风险,类特征概率是一个归一结果,它 多,但传统分类方法并没有在分类性能和分类效率2个层面 忽略了特征在各类别之间训练的分布对特征信任值的影响, 上取得理想的结果。本文采用一种新的基于特征信任投票的 因此,必须对类特征概率的风险进行评估。从类特征概率公 文本分类方法,将文本分类理解为测试文档中的特征对文档 式可以发现,p(ci)对特征信任值的调节过于平缓,尤其在类 类别投票的结果,综合特征对测试文档的投票数(词频)及文 别数较多时,分母基数较大,分子间的数量差距不能充分表 档类别对特征的信任值,实现线性的文本分类。 达,致使测试文档的分类过于依赖特征投票数。另外,当训 2特征投票机制分析练文档集合极不均匀时,类特征概率没有同等的比较条件。 本文基于特征投票机制文本分类提出如下假设:文本分因此,本文重新构建特征概率模型。 类中特征既是文本分类的参与者又是文档类别判定评审专 3基于特征投票的分类模型 家,分类是根据专家的信用度及在测试文档中的投票数决定 为了更好地表达特征在各类别中的分布特征,本文将特 测试文档类别。基于此假设,在训练语料时,将参与分类的 征概率分为微观经验概率和宏观经验概率,分别定义如下: 词汇视为专家特征,根据训练语料考察文档类别对特征的信 微观经