预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

杨毅,王禹桥:中文分词词典计机算制:机次工字程拼与音设首字计母C哈om希pu机te制rEngineeringandDesign2010,31(6)1369 开发与应用 中文分词词典机制:次字拼音首字母哈希机制 杨毅1,王禹桥2 (1.西华大学数学与计算机学院,四川成都610039;2.中国矿业大学机电工程学院,江苏徐州221116) 摘要:为了提高现有基于词典的分词机制的次字查询效率,提出了一种全新的分词词典机制—次字拼音首字母哈希机 制。首字查询仍使用成熟的基于逐字二分机制,在首字哈希表中增加该字的拼音首字母字段,次字按其拼音首字母散列到 26个子表,子表中记录以首字开头的词组个数并设置次字索引表指针,第3字及其后的字串的匹配仍然采用目前成熟的词 典机制。在次字查询时,可大大地缩小查询范围,从而加速了次字查询过程。实验测试表明,该机制在增加少量的存储空间 情况下,时间效率提升了15%。 关键词:中文信息处理;中文分词;次字;哈希;分词词典 中图法分类号:TP391.1文献标识码:A文章编号:1000-7024(2010)06-1369-03 DictionarymechanismforChinesewordsegmentation:InitialBopomofoof second-characterHashmechanism YANGYi1,WANGYu-qiao2 (1.SchoolofMathematicsandComputerScience,XihuaUniversity,Chengdu610039,China; 2.CollegeofMechatronicEngineering,ChinaUniversityofMiningandTechnology,Xuzhou221116,China) Abstract:Toimprovethesecond-characterinquiryefficiencyoftheexistingwordsegmentationmechanismbasedondictionary,anew dictionarywordsegmentationmechanismisproposedforChinesewordsegmentation—theinitialBopomofoofthesecond-characterHash mechanism.Thefirst-characterinquirystilladoptsthepresentmaturemechanismbasedonliteratimbinary.Inthismechanism,itadds theinitialBopomofoofeachcharacterinthefirst-characterHashtable,andthesecondcharacterhashesintothe26sub-tablesaccording toitsinitialBopomofo.ThismechanismrecordsthenumberofphraseswithastartoftheinitialBopomofointhesub-tables,andsets thepointerofsecond-characterindexingtable.Thematchforthethirdcharacteranditsfollowingstringsstilladoptsthepresentmature dictionarymechanism.Second-characterinquirycangreatlyreducetherangeoftheinquiryandacceleratetheprocessofsecond-character inquiry.Throughthetest,thismechanismonlyincreasesasmallamountofstoragespace,butpromotesthetimeefficiencyby15%. Keywords:Chineseinformationprocessing;Chinesesegmentation;secondcharacter;Hash;dictionarymechanism 词词典未跳出三大分词机制,即基于整词二分的分词词典机 0引言 制、基于TRIE索引树的分词词典机制和基于逐字二分的分词 由于中文自身的复杂性,目前仍然没有一种绝对完美的词典机制。 分词办法。在中文分词遇到巨大困难时,有人曾提出改变国目前已经公开的词典机制虽然众多,各有所长,但它们都 人的汉语书写习惯,即在书写文字的同时,人为地加上词语分是在以上三大机制的基础上的衍生和改进。汉语自动分词瓶 隔符