预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

统计机器翻译的调序方法和模型 闫英杰易绵竹李峰 2009年10月17日 内容提要 †一、自然语言的语序 †二、人工翻译与机器翻译的认知 †三、机器翻译的调序问题 †四、调序方法和模型的发展 †五、一些难点问题 †六、结论 一、自然语言的语序问题 †语序:也叫“词序”,即语言中词语组合的先后次序。 „汉语的词序基本上比较固定,从古到今没有太大的变化。 其基本次序为:(定语)+主语+状语+谓语+补语+定语+宾语。 †语序的意义 „某种语言的词序规律正是在从文本的语义表达式向该语言 的现实文本转化过程中词形式的铺排规则。词形式的线性 化,一般要经过语义表达式→深层句法表达式→表层句法 表达式→深层词法表达式等三种操作程序,才能实现。 †语序是重要的语方表达手段 „语法作用:决定句子的语义模式 „交际目的:词序变化反映交际 „修辞作用:灵活的排序 二、人工翻译与机器翻译的认知 †理解人工翻译的过程 †对机器翻译的认知 †人工翻译与机器翻译的对比 理解人工翻译的过程 †人工翻译的过程 „源语言的切分转换 „目标语言的调整生成 †人工翻译中的语序 „自然语言的语句顺序在一定程序上临摹了人的 认知过程。感知和语言都决定于生理构造。人 类具有同样的生理构造,不同语言的词序排列 理应遵从相同的认知心理依据。 对机器翻译的认知 †翻译的基本任务 „源语言分析(词法、句法、语义…) „转换 †基于不同层次 †词序、结构、语义的调整 †译词的选择 „目标语言生成(词形变化、增加或删除词语…) 对机器翻译的认知(续) †机器翻译的基本策略 „直译 †从原文句子的表层(词、词组或短语)出发,直接转换 成译文(辅以必要的词序调整)。 „转换 †分析源语言后,得到一个基于源语言的中间表示,然后 将这个中间表示转换成基于目标语言的中间表示,再从 基于目标语言的中间表示生成目标语言。 „中间语 †对源语言进行分析,得到一个独立于源语言和目标语言 的、基于概念的中间表示,然后从这个中间表示生成目 标语言。 对机器翻译的认知(续) 中间语言 语义转换 分析生成 (词法、句法、语义)(词法、句法、语义) 句法转换 词汇转换 源语言目标语言 人工翻译与机器翻译的对比 †翻译采用的策略不同 „人工翻译是直译+意译,主要基于对语义的理解 „机器翻译的策略多样化,但目前主要的研究都 是基于词法、句法。 †翻译过程的实质相同 „对源语言或目标语言的分解和生成必不可少 „语义单元的对应转换和语句顺序的相应调整必 不可少 三、机器翻译的调序问题 †一般的翻译调序过程 源语言目标语言译文 切分转换语序调整 源语言核心句目标语言分句 机器翻译的调序问题(续) †调序的时机 „转换之前处理与之后处理 †调序的对象 „对源语言的调序与对目标语言的调序 †调序的范围 „词汇、短语、句子 „不受限的调序是个NP难题 四、调序方法和模型的发展 †简单词语的局部调序 †基于短语和语块的调序 †基于形式化句法的调序 简单词语的局部调序 多种实现方法 „线性移位模型 „扁平调序模型 „词汇化的短语调序模型 „基于短语转换规则的调序模型 不足之处 „没有句法结构和语义分析的指导,转换很难很好地进 行,特别是对句法、语义结构相差很大的语言。 „译词选择和词序调整工作可用的信息太少。 基于短语和语块的调序 †语块标记 „识别句子中某些结构相对简单的独立成分。语 块分析使句法分析的任务在某种程度上得到简 化,同时也利于句法分析技术在大规模真实文 本处理系统中迅速得到应用。 †分层短语模型 „结合了短语模型和同步上下文无关文法 „以目标语言的句法结构来调整源语言短语和语 块,将源语言转换成符合目标语言句法的句子。 基于短语和语块的调序(续) †优点 „便于实现长距离的短语对的调序 †不足之处 „对分层短语模型的规则提取没有任何句法信息 的约束,使其抽取的语法规模往往十分庞大。 基于形式化句法的调序 †两类方法 „固定模板方法 „概率模型方法 †不同实现 „语言学知识的句法分类 „基于概率统计的句法分类 †不足之处 „句法分析的程度 „句序调整的范围 五、一些难点问题 †调序方法的普适性问题 „认知语言学理论的研究 †调序方法的评测问题 „机器翻译理论的研究 †大范围长距离的调序问题 „知识工程理论的研究 六、结论 †语言学知识的必要引入 „决定语序的主要因素 †机器翻译理论的创新 „认知语言学、翻译理论的引入 谢谢大家!