预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

28/28首都师大学学士学位论文基于Web的文本分类挖掘的研究学位论文原创性声明本人重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:日期:年月日学位论文使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期:年月日导师签名:日期:年月日中文提要文本分类最初是应文本信息检索的要求出现的,但是随着文本数据的激增,传统的研究方法己经不适合大规模文本分类,文本数据挖掘应运而生。作为文本数据挖掘的一个重要功能,文本分类技术日益成为研究热点。文本分类目的是对文本集有序组织,便于文本信息高效管理,为人的决策提供支持。但是传统的人工分类的做法存在许多弊端,不仅是耗费大量人力、物和精力,而且受人为因素影响较大,分类结果一致性不高。与之相比,文本自动分类具有快速、高效的特点,且分类准确率较高。对文本分类技术进行研究,介绍文本分类的基本过程,论述文本特征提取方法,讨论朴素贝叶斯、K近邻、支持向量机、投票等常用的文本分类原理与方法,探讨中文文本分类技术。采用支持向量机技术,设计并实现了一个开放的中文文档自动分类系统。实验表明,它不仅具有较高的训练效率,同时能得到很高的分类准确率和查全率。关键词:文本挖掘文本分类支持向量机向量空间模型外文提要Textcategorizationappearsinitiallyfortextinformationretrievalsystem;howevertextdataincreasessofastthattraditionalresearchmethodshavebeenimproperforlarge-scaletextcategorization.Sotextdataminingemerges,andtextcategorizationbecomesmoreandmoreimportantasamajorresearchfieldofit.Thepurposeoftextcategorizationistoorganizetextbyorder,soastomanagetextinformationefficientlyandsupportdecisionsofhumanbeing.Howevercategorizationbyhandnotonlyconsumesplentyofmanpower,materialresourcesandenergy,butalsomakescategorizationaccuracyinconsistent.Comparedwithcategorizationbyhand,automatictextcategorizationclassifiestextsfasteranditscategorizationaccuracyrateshigher.Introducesthetechniquesoftextcategorization,includingitsbasicprocess,thealgorithmsoftextfeatureextraction,thetheoriesandtechnologiessuchasNaïvebayes,KNN,SVM,Votedandsoon.Chinesetextclassificationisdiscussed.AnopenChinesedocumentclassificationsystemusingsupportisdesignedandimplemented.Theexperimentshowsthatitnotonlyimprovestrainingefficiency,butalsohasgoodprecisionandrecall.KeywordtextminingTextcategorizationSupportVectorMachine(SVM)vectorspacemodel目录中文提要1外文提要2目录3第一章绪论41.1文本自动分类研究的背景和意义41.2问题的描述61.3国外文本自动分类研究动态6第二章中文文本分类技术研究82.1文本预处理82.1.1文本半结构化82.1.2自动分词82.1.3特征选择[12]82.2分类模型92.2.1贝叶斯