预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于字符级特征的日文依存句法自动分析算法 1.引言 句法分析是自然语言处理中一个重要的研究方向,其目标是为输入的自然语言文本建立对应的句法分析树,达到深层次的理解和分析。作为东亚三大语系之一的日语语法体系相对复杂,因此日语句法分析一直是自然语言处理中的一个研究热点之一。其中依存句法分析是其中的重要分支之一,以语义为基础建立一张全局标注在各个词汇之间的依存关系图。在本文中,我们将介绍一种用于日语依存句法自动分析的基于字符级特征的算法框架。 2.相关工作 为了解决依存句法自动分析中的挑战,以往很多研究者采用了传统的特征工程方法,并且大部分都是对单词级别的特征进行刻画。例如谷口等人(2011)提出了一种基于线性链条件随机场(linearchainCRF)的日语依存句法分析算法,主要特征包括词性、形态素特征、表层特征等等。Wang等人(2013)则引入了结构性方法(StructuralSVMs)用于中日英多语言依存句法分析,主要特征包括字形、词性、句法角色等。但这些方法都存在着特征工程难度大、人工规则多、泛化能力差等问题。 近年来随着深度学习技术的发展,面向依存句法分析的神经网络模型也得到了广泛研究。Kiperwasser和Goldberg(2016)提出了Transition-BasedDependencyParsingwithStackLongShort-TermMemory(LSTM)用于英语依存句法分析,通过将输入序列映射为LSTM隐状态空间,实现了端到端的句法分析。示例中,Björkelund等人(2016)和Zhang和Weiss(2016)分别基于字符级和卷积神经网络(CNN)的方法来引入字符级信息,并取得了不俗的结果。但是,这些方法仍然存在着依赖于大量标注数据、语言相关性较强等问题。 3.方法概述 本文提出的算法方法旨在解决上述问题。首先,借鉴EMNLP2016示例,我们引入字符级特征并基于长短期记忆(LSTM)模型实现日语依存句法自动分析。具体地,我们对输入的句子进行字符级别的编码,然后通过LSTM神经网络将字符级别的特征转化为句子表示特征。接着,我们使用基于转移的依存分析算法(MST)进行依存结构的预测。由于LSTM神经网络模型可以通过预训练的方式学习到一定的特征表示能力,因此我们只需要使用较少的标注样本,便可以获得较好的依存分析预测效果。 基于字符级的特征,我们使用了Unihan字符集来表示日语汉字和假名,具体来说对每一个字符我们都按照卡片库里的标准化格式分别编码为Unicode码,方便之后的字符级别的特征提取。 4.实验和结果 本文在公开数据集BCCWJ和いうことなトレーニングセット上对我们提出的算法进行了实验,分别使用标准性能评估指标(LAS和UAS)分别对比了该方法与其他几种经典的句法分析算法。实验结果表明,我们提出的方法在BCCWJ上获得了89.2%的LAS和89.3%的UAS,比传统的基于词性等单词级别特征的方法都有一定的提升。在いうことなトレーニングセット上的实验结果也表明,我们的算法在小样本上也有良好的预测效果,因此具有很好的泛化能力。 5.结论 本文提出了一种基于字符级特征和LSTM神经网络模型的日语依存句法自动分析方法。与现有的方法相比,它具有数据需求低、人工规则少等特点。实验结果表明,我们提出的方法在BCCWJ和いうことなトレーニングセット上均有良好的预测效果。未来,我们将继续探索更加高效的反向传播算法、更加合理化的特征提取方法,以及更广泛的应用场景。