预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

万方数据 词典与统计方法结合的中文分词模型研究及应用inf0咖tionthe“硼seg”哪rd计算机工程与设计algorithalgorith;mutual蒋建洪,赵嵩正,罗AnalysisandapplicationofChinesewordsegmentationmodelwhichdictionarymethodn锄ea11d删tual玫(西北工业大学管理学院,陕西西安710129)将nmseg分词算法和互信息的算法应用于分词处理过程中,设计并实现了一个快速、准确度高的分词模型,通过测试结果consiststatisticsO引言1分词算法及其实现2012年1月第33卷第1期摘要:为了解决传统的基于词典的分词法和基于统计的分词方法的效率和识别能力的不足。根据电子商务中商品名称信息这一特定领域的文本数据的特点进行分析,研究了mmseg分词法和基于互信息的处理方法,结合两类分词方法的优点,表明。该模型能够较好地解决分词的速度与效率问题。关键词:分词;mmseg算法;互信息;词典;统计中图法分类号:TP31l文献标识号:A文章编号:1000-7024(2012)01一0387—05JIANGJian_hong,ZHA0Son乎zheng,LU0Meiuntilled,aJld“mmseg,,infonmtion在电子商务的数据挖掘中,交易的商品信息通常提供了商品的名称,而没有提供所属的类别,商品的名称中可能还包括了一些基本的描述,这对于商品数据挖掘的分类或者聚类处理来说,缺少足够的信息,因此需要将这些信息提取出来,同时过滤掉一些多余的信息,在数据清洗阶段需要对其进行预处理。而如何从语句中抽取出有价值的信息,涉及到自然语言处理技术。使用词处理对语句进行分词。能够为商品的识别提供更加明确的含义。汉语分词是中文信息处理的基础,与英文不同在于汉语词语是连成句子的,词问没有分隔,为了能够对文本进行分类,首先要对文本的内容分词处理。目前有下面几种常用的分词方法:基于字符串匹配的分词方法,基于理解的分词方法,基于统计的分词方法,基于语义的分词方法[1]。传统的基于词典的分词法和基于统计的分词方法均存在不足,如基于词典的分词方法效率很高但是对于新词的识别能力不足,而基于统计的分词方法能很好的发现新词,但是分词的效率较低。目前有学者也进行了相关的研究。文献[2]使用最大匹配法进行分析,文献[3—4]在正向最大匹配法的基础上进行完善。文献[5]提出了改进的无词典分词法,但是准确率有所不足,文献[6—7]使用了规则和统计的分词方法,但是后者基于规则的分词方法效率上较低。为了解决这种问题,本文采用词典和统计相结合的分词方法,以实现一个高效的分词模型,提高分词效率和准确度。目前常用的中文分词算法有基于词典的分词算法和基JanManagernent,North、张stemproblems链皿entationpmposed,twomutualalgorit}mlbettersegrnemationwo州s:wordse母nent;mmseg收稿日期:2011一03一Ol;修订日期:2011_05-05基金项目:国家自然科学基金项目(71001085)作者简介:蒋建洪(1982一)。男,广西桂林人,博士研究生.研究方向为数据挖掘;赵嵩正(1961一).男,山东莱州人,博士,博士生导师,研究方向为管理信息系统;罗攻(1982一),女,陕西汉中人,博士研究生,研究方向为管理信息系统。E-mail:aer0723@grIlaiL2012Cf)M【PUTFREN(二INEERINGANDDESIGNVd.33NO.1(SchoolPolytechnicaIUniversity,xi’an710129,China)Abstract:Tosolvethethatthereislacke“iciencyrecognitionabilityindictionary_based、Vordstatistical-based、^帕rdmethod,thespecificproductdataE—c(mlmercelyzed,arldmeth。dp1Dcessillgmetk)dresearchedArapidarld11ighlywrorddesiglledsegrnentationrnethodsegmemationappliedsegmentprocessin吕Thetmsrnodelprovidesolutionforspeedefficiency.Keyinfonllation;dictionary;statisticsoomtypestestprovesaareastextana—areaccuratecan 万方数据 ∑log正,其中I是单词条集合,L为单词条