预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共33页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

苏州大学本科生毕业设计(论文)目录摘要1Abstract2前言3第1章绪论41.1研究背景41.2分词概述51.3本文的主要工作6第2章基于词典匹配和动态规划树状解码的多粒度分词算法82.1算法实现82.2优化102.3评价10第3章基于神经网络分类模型和动态规划序列解码的多粒度分词方法133.1介绍133.2模型搭建143.3模型训练163.4模型结果处理173.5评价19第4章多粒度分词演示系统构建224.1后端程序224.2网页前端234.3效果展示24第5章总结与展望275.1本文总结275.2后续工作展望27致谢29参考文献30附录32苏州大学本科生毕业设计(论文)32摘要中文分词一直是中文信息处理领域的一项重要技术,它是机器翻译,搜索引擎,文本分类等应用不可或缺的基础部分。中文分词方法也在不断地发展,但是这些方法仅仅聚焦于单粒度分词,即一个句子被分割成唯一的一个词序列。于是,最近有人系统地在数据驱动的机器学习框架下正式提出并解决了中文多粒度分词任务。该毕业设计旨在实现一个多粒度分词演示系统,让用户在浏览器一端输入中文句子,网页能够即时的显示多粒度分词结果。因此本文的工作大体上可以分为两部分。第一部分,实现多粒度分词算法。主要尝试了两种算法,第一种基于词典匹配的动态规划解码算法,第二种基于深度学习的前馈神经网络模型。最后用两者在1500个测试句子上进行评价,比较它们的优劣。第二部分为Web网页的设计,前端选用普通的css+JavaScript+html技术,后端则选用python的Flask框架搭建,通过调用前面设计好的算法实现分词,把结果传到前端,最后再将结果以合适的形式展现出来。关键词:自然语言处理;中文信息处理;中文分词;多粒度分词;Web开发AbstractChinesewordsegmentationhasalwaysbeenanimportanttechnologyinthefieldofChineseinformationprocessing.Itisanindispensablepartofmachinetranslation,searchengine,textclassificationandotherapplications.Chinesewordsegmentationmethodsarealsoconstantlyevolving,butthesemethodsfocusonlyonsingle-grainedsegmentation.Asaresult,ithasrecentlybeensystematicallyproposedandsolvedinthedata-drivenmachinelearningframeworkforChinesemulti-grainedwordsegmentationtasks.Thegraduationprojectaimstoimplementamulti-grainedwordsegmentationdemonstrationsystem,allowinguserstoinputChinesesentencesatthebrowser,andthewebpagescaninstantlydisplaymulti-grainedwordsegmentationresults.Therefore,thisworkcanberoughlydividedintotwoparts.Thefirstpart,toimplementmulti-grainedwordsegmentationalgorithm.Twoalgorithmsaremainlytried,thefirstonebasedonscoreswhichiscalledCKYdecodingalgorithmandthesecondonebasedondeeplearningusingthefeedforwardneuralnetworkmodel.Finally,thetwowereevaluatedon1500testsentencestocomparetheirmerits.Thesecondpartisthedesignofawebpage.Thefrontendusestheordinarycss+JavaScript+htmltechnology,andthebackendusestheflaskframeworkofpython.Bycallingthepreviouslydesignedalgorithm,thewordsegmentationisachieved,theresultispassedtothefrontend,andtheresultisfinallyshownin