预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

·· 通信学报 第29卷 第1期 薛永增等:短语统计机器翻译的句法调序模型 ·· 第29卷第1期 通信学报 Vol.29No.1 2008年1月 JournalonCommunications January2008 短语统计机器翻译的句法调序模型 薛永增,李生,赵铁军,杨沐昀 (哈尔滨工业大学语言语音教育部-微软重点实验室,黑龙江哈尔滨150001) 照片尺寸为20mm*30mm;最好不用红色背景 摘要:为了处理统计机器翻译中的长距离调序,在基于短语的统计翻译模型的基础上提出了句法调序模型。该模型按照短语切分来分割句法树结构,从而能够避免短语和句法结构的不一致性。在该模型中依据短语对齐和短语内词对齐确定句法树部分结构的调序顺序,依据各个节点上的调序概率计算子结构的调序概率,作为对数线性模型的特征函数。该模型的实验结果比经典的短语统计翻译模型的BLEU评分有明显提高。结果表明句法调序模型对于基于短语的统计机器翻译是有效的,能够较好地将句法知识和短语翻译过程结合起来。 关键词:人工智能;统计翻译模型;句法调序;短语 中图分类号:TP391.2文献标识码:A文章编号:1000-436X(2008)01-0007-08 Syntax-basedreorderingmodelforphrasalstatisticalmachinetranslation XUEYong-zeng,LISheng,ZHAOTie-jun,YANGMu-yun (MOE-MSKeyLaboratoryofNaturalLanguageProcessingandSpeech,HarbinInstituteofTechnology,Harbin150001,China) Abstract:Todealwiththelong-distancereordering,alinguisticallysyntax-basedreorderingmodelwaspresentedforphrasalstatisticalmachinetranslation.Inthismodel,thesyntaxstructurewasdecomposedaccordingtothephrasesegmentationtoavoidtheinconsistencebetweenphraseandsyntax.Thereorderingsequenceofthesub-structuresofaparsetreewasdecidedbythewordandphrasealignments.Thereorderingprobabilityofthesub-structurewascalculatedonthereorderingprobabilitiesoftheinsidenodes,whichwasdefinedasafeaturefunctionofthelog-linearstatisticaltranslationmodel.ExperimentalresultsshowthattheBLEUscoresofthetranslationresultsweresignificantlyimprovedcomparedwithaconventionalstatisticalphrase-basedmodel.Therefore,itiseffectivetointroducethelinguisticsyntaxforphrasereordering.Thepresentedreorderingmodelisabletoefficientlyincorporatethesyntaxintothetranslationprocessofphrases. Keywords:artificialintelligence;statisticaltranslationmodel;syntax-basedreordering;phrase 1引言 收稿日期:2007-04-13;修回日期:2007-10-20 基金项目:国家高技术研究发展计划(“863”计划)基金资助项目(2006AA010108,2006AA01Z150) FoundationItem:TheNationalHighTechnologyResearchandDevelopmentProgramofChina(863Program)(2006AA010108,2006AA01Z150) 近年来,基于短语和句法的统计翻译模型成为了国内外机器翻译领域的研究热点之一[1~3]。调序是其中的一个关键问题。由于机器翻译中不受限调序是一个NP难题[4,5],而n元文法语言模型又不足以解决翻译中的调序问题[6],因此在统计机器翻译中引