预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于Web的中越双语平行语料自动获取技术研究 摘要: 近年来,随着社会的不断发展和互联网的高速普及,各行各业的信息化程度都在加速提升。语言处理技术也因此得到了广泛的应用。其中,中越双语平行语料的获取是一个重要的问题。本文基于Web技术,探讨了中越双语平行语料自动获取的实现方法和技术。 关键词:中越双语、平行语料、自动获取、Web技术 Abstract: Inrecentyears,withthecontinuousdevelopmentofsocietyandthehigh-speedpopularizationoftheInternet,theinformationizationlevelofvariousindustriesisaccelerating.Languageprocessingtechnologyhasalsobeenwidelyused.Amongthem,theacquisitionofChinese-Vietnameseparallelcorpusisanimportantissue.BasedonWebtechnology,thispaperdiscussestheimplementationmethodsandtechnologiesofautomaticacquisitionofChinese-Vietnameseparallelcorpus. Keywords:Chinese-Vietnamese,parallelcorpus,automaticacquisition,Webtechnology 一、背景 在全球化的背景下,如何使得不同语言之间加强联系,相互交流是一个很重要的问题。而作为语言处理技术中的重要一环,平行语料库成为彼此间交流与沟通的桥梁,而其获取质量的提升,则是实现自动语音识别、机器翻译等领域的关键。 中越两国地理位置相邻,历史渊源深厚,两国人民经常交流,而在信息化程度的加速推进之下,如何获得中越两种语言的平行语料库已经成为了大众所关注的话题。 二、国内外研究现状 在过去的几十年里,国内外学者已经开展了很多关于平行语料库自动获取技术方面的研究。其中,自动获取平行语料库的方法主要分为两类,一类是基于已有的平行语料库进行扩展;另一类是基于Web技术进行数据的自动采集和处理。 在基于已有基于平行语料库的扩展方法中,学者们主要通过自动对齐的方式,或者是通过对齐的技术手段来尝试寻找语言之间的对应。这种方法在一定程度上是成功的,但是需要比较大的手工干预,且对于一些语言字体,结构不同的难以克服。而基于Web技术的自动采集和处理方法,则比较适用于此类问题。 在国外,一个名为Kilian的英国网站上,提供了一个计算机词汇词典,其中就包含了三种语言的对比信息,包括文本与音频资料,而其中文本部分的信息将所有语言均作为程序生成的形式进行展示。 在国内,针对平行语料库自动获取,学者们提供了很多的有效方案。比如XuJianqiang等(2009)基于裹膜半监督方法的核心算法,实现了对于平行语料库中的语言对齐技术;而ZhuTeng等(2019)则提出了一种基于神经网络的双语词对齐方法。 三、实验方法及流程 本文主要采用了一种基于Web的方法,即爬虫技术,结合一些实用的工具完成了中越双语平行语料的自动获取。 具体实验流程如下: 1.爬虫程序的开发 本文采用了Python语言,使用了一些开源的库,如BeautifulSoup4和requests。首先通过构建初始URL,定义好要爬取的数据类型以及要爬取的数据范围,然后通过requests库实现了对目标网站的访问。将获取到的网页内容交给BeautifulSoup4处理,通过BeautifulSoup4解析html对象,并通过正则表达式初步判断是否存在需要的语言对应。 2.数据去重与处理 在获取到语言的平行数据之后,需要对数据进行处理。本文的处理方法是将文本中包含的标签,HTML代码等无关信息去掉,保留文本信息。同时,在处理文字的时候,需要对数据进行去重工作。我们通过计算机语言处理技术,将已经提取出的语言信息进行对比,去掉语言相同的部分。 3.信息存储和分类管理 在获取、处理好语言信息之后,需要进行分类管理和存储。目前,针对于中越双语平行语料库的存储和管理,理论上采用的存储方式是分布存储,将数据存储在不同的计算机中,这样可以充分利用分布式计算的优势。 四、实验结果分析 在对中越双语平行语料进行爬虫程序实验之后,本文可以得到相关的语料库信息。经过去重处理,得到的语言信息相互独立,且相互不存在重复的信息。如图所示: 图1.排除重复后中越双语平行语料库数据示例 通过对比图1的数据,我们可以发现,这些数据均为来自于网络和博客等社交平台上的数据。数据质量不高,主要体现在字体方面和格式