词典与统计相结合的中文分词的研究-豆柴文库

词典与统计相结合的中文分词的研究.pdf

2024-08-28

10金币

2.4MB

57页

qw****27

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共57页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

武汉理工大学硕士学位论文词典与统计相结合的中文分词的研究姓名：岳中原申请学位级别：硕士专业：计算机应用技术指导教师：胡燕 20100501 摘要结构，根据汉语中双字词的数量最多的特点和哈希结构查找速度快的特点，采用了双字哈希索引结构将基本词典中的词按照前两个字为关键字进行存储，并临时词典，停用字词典等，它们将分别用于数量词和命名实体识别等；通过对数量词的预先正确切分减少了由于这些词所引起的歧义数量；使用改进的正向由于命名实体中人名识别的上下文限定条件最多，所以识别效果最好，机构名通过实验发现本系统具有较好的未登录词识别能力和歧义消除能力，基本随着社会信息化的发展，人们很容易获得海量信息。但是要处理海量信息，靠人工是不可能的，必须依靠计算机的帮助。和西方语言不同，中文中的词与词之间没有明显的切分标志。所以，要使计算机能够处理中文文本，就必须先进行中文分词。现在大多数中文分词研究都依赖计算机完成切分工作，但其结果一般还不能令人满意。由于汉语的复杂性和新词语的不断出现，现有的中文自动分词系统还没有达到令人满意的效果。本文分析了当前中文分词已经实际使用的算法，各种分词词典组织形式，并研究了中文分词目前存在的问题。并主要介绍了一种基于机械匹配与基于统计相结合的中文分词算法，解决了一部分条件下的人名，地名，机构名，数量词等类型的未登录词以及交集型歧义引起的切分错误问题。本文采用了统计和词典相结合的复合分词方法，在多个方面进行了改进。在统计方面，通过对第一次分词结果中碎片的统计，识别出在文本中出现过超过一次的未登录词，并将其加入临时词典；对词典的组织结构进行了改进，把单个词典分为基本词典和扩展词典两个部分。改进了基本词典在内存中的组织在词条中加入词频信息用于歧义消解，扩展词典则包括数量词词典，姓氏词典，最大匹配分词法对文本进行第二次分词，并使用统计的方法消除部分歧义；最后使用规则的方法，在机械分词结果中识别出在文本中只出现一次的未登录词。组成结构最复杂，识别效果也最差，所以本文是依次进行人名，地名和机构名的识别。上可以满足中文信息处理实际应用的要求。关键词：中文分词未登录词词频统计命名实体 segmentationsegmentation．segmentation．Identifiedonce．Andinformationdictionary．Improvednetworkdictionary,temporaryAbstractWithWesterncontinualsinglelength．Withinformation．However,tosegmentation．So，toImprovementsstatisticsstructuredictionarydictionary．Thisstructure”Hashtable",wearestructures，wheneverdictionary,wordthedevelopmentofinformationize，itiseasyobtainlargeamountdealwithmassivemanuallypossible，needrelyhelpcomputer．Anddifferentfromlanguages，Chinese，betweenwordsinobvioussignsmakecomputercapablehandlingChinesemustdochinesewordfirst．Ascomplexitysyntacticandemergencenewwords，Chinesesystemhasachievedsatisfactoryresults．Thispaperanalyzesactualalgorithm．manykindsstructure．StudiedproblemsInthispaper,weusedcombinationmethodbasedstatisticaldictionary．Achievevariousaspects．First，wedividewholeintoshorteraccordingPunetuationstext．instatistics，throughresultsfragmentationunknownappearedmorethanaddedtemporarydictionary．Putbasicextendeddescribesalgorithmweinereasenumberdictionaries，weaddsomesPeeialdictionarieswhichbeeliminateambiguousnessesreeognizeduringProcessbesidesdictionar

相关资料

词典与统计相结合的中文分词的研究.pdf

2024-08-28

2.4MB

中文分词词典机制的研究.docx

中文分词词典机制的研究随着互联网的普及和中文信息的快速增长，中文分词成为了自然语言处理的一项基础技术。中文分词，指的是将一段中文文本按照一定规则划分成若干个词组，是中文文本处理的必要步骤。中文分词的主要任务是确定单词或字的边界，帮助计算机认识和处理中文的语言信息。尤其是对于中文而言，因为中文语言没有像英语国家那样的空格（Whitespace）来表示单词界限，单个汉字会有多种不同的词性和意义，因此，中文分词的难度相当大。中文分词器的设计涉及到很多技术，包括词典匹配、规则匹配等。其中，词典机制是中文分词器的核

2024-11-15

11KB

词典与统计方法结合的中文分词模型研究及应用.pdf

万方数据词典与统计方法结合的中文分词模型研究及应用inf0咖tionthe“硼seg”哪rd计算机工程与设计algorithalgorith；mutual蒋建洪，赵嵩正，罗AnalysisandapplicationofChinesewordsegmentationmodelwhichdictionarymethodn锄ea11d删tual玫(西北工业大学管理学院，陕西西安710129)将nmseg分词算法和互信息的算法应用于分词处理过程中，设计并实现了一个快速、准确度高的分词模型，通过测试结果consi

2024-08-28

400KB

规则与统计相结合的中文分词方法研究的中期报告.docx

规则与统计相结合的中文分词方法研究的中期报告中期报告1.研究目的与意义中文分词作为中文自然语言处理的基础和关键技术，一直以来都是研究的热点之一。对中文分词算法的研究可以提高中文文本处理的准确性和效率，具有重要的理论和实际意义。本研究旨在探索一种基于规则与统计相结合的中文分词方法，以提高分词准确率，并应用于中文文本处理、信息检索等领域。2.研究内容与方法本研究采用了基于规则与统计相结合的分词方法，其中规则分词主要采用基于词典的正向最大匹配算法和逆向最大匹配算法，通过人工构建词典与规则进行分词，在此基础上使用

2024-09-18

10KB

基于词典的中文分词算法研究.pdf

总第233期计算机与数字工程Vo1．37No．32009年第3期Computer&DigitalEngineering68基于词典的中文分词算法研究周程远朱敏杨云(华东师范大学计算中心上海200062)摘要中文分词是计算机自动处理文本的基础。通过比较常用的机械分词算法的优缺点，提出了分层逐字二分算法，综合了TRIE树和逐字二分分词的特点，以求通过较小的开销来实现较快的匹配速度。实验结果表明，该算法在综合性能上有显著提高。关键词中文分词计算机应用中文信息处理中图分类号TP391．1ResearchonChi

2024-08-28

352KB