词典与统计方法结合的中文分词模型研究及应用-豆柴文库

词典与统计方法结合的中文分词模型研究及应用.pdf

2024-08-28

10金币

400KB

6页

as****16

实名认证

内容提供者

1/6

2/6

3/6

4/6

5/6

6/6

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

万方数据词典与统计方法结合的中文分词模型研究及应用inf0咖tionthe“硼seg”哪rd计算机工程与设计algorithalgorith；mutual蒋建洪，赵嵩正，罗AnalysisandapplicationofChinesewordsegmentationmodelwhichdictionarymethodn锄ea11d删tual玫(西北工业大学管理学院，陕西西安710129)将nmseg分词算法和互信息的算法应用于分词处理过程中，设计并实现了一个快速、准确度高的分词模型，通过测试结果consiststatisticsO引言1分词算法及其实现2012年1月第33卷第1期摘要：为了解决传统的基于词典的分词法和基于统计的分词方法的效率和识别能力的不足。根据电子商务中商品名称信息这一特定领域的文本数据的特点进行分析，研究了mmseg分词法和基于互信息的处理方法，结合两类分词方法的优点，表明。该模型能够较好地解决分词的速度与效率问题。关键词：分词；mmseg算法；互信息；词典；统计中图法分类号：TP31l文献标识号：A文章编号：1000-7024(2012)01一0387—05JIANGJian_hong，ZHA0Son乎zheng，LU0Meiuntilled，aJld“mmseg，，infonmtion在电子商务的数据挖掘中，交易的商品信息通常提供了商品的名称，而没有提供所属的类别，商品的名称中可能还包括了一些基本的描述，这对于商品数据挖掘的分类或者聚类处理来说，缺少足够的信息，因此需要将这些信息提取出来，同时过滤掉一些多余的信息，在数据清洗阶段需要对其进行预处理。而如何从语句中抽取出有价值的信息，涉及到自然语言处理技术。使用词处理对语句进行分词。能够为商品的识别提供更加明确的含义。汉语分词是中文信息处理的基础，与英文不同在于汉语词语是连成句子的，词问没有分隔，为了能够对文本进行分类，首先要对文本的内容分词处理。目前有下面几种常用的分词方法：基于字符串匹配的分词方法，基于理解的分词方法，基于统计的分词方法，基于语义的分词方法[1]。传统的基于词典的分词法和基于统计的分词方法均存在不足，如基于词典的分词方法效率很高但是对于新词的识别能力不足，而基于统计的分词方法能很好的发现新词，但是分词的效率较低。目前有学者也进行了相关的研究。文献[2]使用最大匹配法进行分析，文献[3—4]在正向最大匹配法的基础上进行完善。文献[5]提出了改进的无词典分词法，但是准确率有所不足，文献[6—7]使用了规则和统计的分词方法，但是后者基于规则的分词方法效率上较低。为了解决这种问题，本文采用词典和统计相结合的分词方法，以实现一个高效的分词模型，提高分词效率和准确度。目前常用的中文分词算法有基于词典的分词算法和基JanManagernent，North、张stemproblems链皿entationpmposed，twomutualalgorit}mlbettersegrnemationwo州s：wordse母nent；mmseg收稿日期：2011一03一Ol；修订日期：2011_05-05基金项目：国家自然科学基金项目(71001085)作者简介：蒋建洪(1982一)。男，广西桂林人，博士研究生．研究方向为数据挖掘；赵嵩正(1961一)．男，山东莱州人，博士，博士生导师，研究方向为管理信息系统；罗攻(1982一)，女，陕西汉中人，博士研究生，研究方向为管理信息系统。E-mail：aer0723@grIlaiL2012Cf)M【PUTFREN(二INEERINGANDDESIGNVd．33NO．1(SchoolPolytechnicaIUniversity，xi’an710129，China)Abstract：Tosolvethethatthereislacke“iciencyrecognitionabilityindictionary_based、Vordstatistical-based、^帕rdmethod，thespecificproductdataE—c(mlmercelyzed，arldmeth。dp1Dcessillgmetk)dresearchedArapidarld11ighlywrorddesiglledsegrnentationrnethodsegmemationappliedsegmentprocessin吕Thetmsrnodelprovidesolutionforspeedefficiency．Keyinfonllation；dictionary；statisticsoomtypestestprovesaareastextana—areaccuratecan 万方数据 ∑log正，其中I是单词条集合，L为单词条

相关资料

词典与统计方法结合的中文分词模型研究及应用.pdf

2024-08-28

400KB

词典与统计相结合的中文分词的研究.pdf

武汉理工大学硕士学位论文词典与统计相结合的中文分词的研究姓名：岳中原申请学位级别：硕士专业：计算机应用技术指导教师：胡燕20100501摘要结构，根据汉语中双字词的数量最多的特点和哈希结构查找速度快的特点，采用了双字哈希索引结构将基本词典中的词按照前两个字为关键字进行存储，并临时词典，停用字词典等，它们将分别用于数量词和命名实体识别等；通过对数量词的预先正确切分减少了由于这些词所引起的歧义数量；使用改进的正向由于命名实体中人名识别的上下文限定条件最多，所以识别效果最好，机构名通过实验发现本系统具有较好的未

2024-08-28

2.4MB

基于词典与统计结合的中文分词方法研究及全文检索系统设计.docx

基于词典与统计结合的中文分词方法研究及全文检索系统设计基于词典与统计结合的中文分词方法研究及全文检索系统设计摘要：中文分词是自然语言处理中的重要环节，对于中文文本的处理和理解具有关键作用。本文研究了基于词典与统计结合的中文分词方法，并设计了一套全文检索系统，以提高中文文本的处理效率和准确性。首先，基于中文词典和正向最大匹配法构建了一套词典匹配分词模块。然后，通过统计方法找出特征词语的规律，建立了一套统计分词模块。最后，将两种方法结合起来，并引入深度学习技术，设计了一套全文检索系统，实现了高效、准确的中文分

2024-10-17

11KB

基于词典与统计结合的中文分词方法研究及全文检索系统设计的中期报告.docx

基于词典与统计结合的中文分词方法研究及全文检索系统设计的中期报告一、研究背景随着互联网及数字化时代的到来，海量的文本数据与信息快速增长。而对于这些信息的处理与管理，需要对其进行有效的整理与分类处理。而中文分词技术是自然语言处理的一个重要分支，是实现中文文本智能处理及管理的基础。目前，中文分词技术已经取得了一定的成果与发展。然而，中文分词技术面临的挑战仍然较大。例如，中文文本中存在大量的歧义词语，需要根据上下文来进行准确的分词；还有一些专业术语和尚未收录在词典中的新词汇，也需要进行有效的识别。因此，本研究将

2024-10-16

11KB

基于词典与统计结合的中文分词方法研究及全文检索系统设计的开题报告.docx

基于词典与统计结合的中文分词方法研究及全文检索系统设计的开题报告一、选题背景随着大数据时代的到来，互联网上的文本数据量急剧增加，如何高效地进行文本处理和检索成为了亟待解决的问题。而中文分词作为中文文本处理的关键环节之一，其质量直接影响到后续的文本处理效果。因此，本文选题基于词典与统计结合的中文分词方法研究及全文检索系统设计。二、研究内容本文将深入研究中文分词领域，探讨如何将词典与统计相结合的方法用于中文分词。具体来说，本文将采用基于规则的词典分词方法和基于统计的分词方法相结合的方式进行中文分词，既考虑到规

2024-09-15

11KB