预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

以範例為基礎之英漢TIMSS詴題輔助翻譯張智傑劉昭麟國立政治大學資訊科學系{g9512chaolin}@cs.nccu.edu.tw摘要本論文應用以範例為基礎的機器翻譯技術應用英漢雙語對應的結構輔助英漢單句語料的翻譯。翻譯範例是運用一種特殊的結構此結構包含來源句的剖析樹、目標句的字串、以及目標句和來源句詞彙對應關係。將翻譯範例建立資料庫以提供來源句作詞序交換的依據最後透過字典翻譯以及利用統計式中英詞彙對列和語言模型來選詞產生建議的翻譯。我們是以2003年國際數學與科學教育成就趨勢調查測驗詴題為主要翻譯的對象以期提升翻譯的一致性和效率。以NIST和BLEU的評比方式來評估和比較線上翻譯系統和本系統所達成的翻譯品質。關鍵詞:自然語言處理詴題翻譯機器翻譯TIMSS1.緒論國際教育學習成就調查委員會(TheInternationalAssociationfortheEvaluationofEduca-tionAchievement以下簡稱IEA)[20]主要目的在於了解各國學生數學及科學(含物理、化學、生物、及地球科學)方面學習成就、教育環境等影響學生的因素找出關聯性並在國際間相互作比較。自1970年起開始第一次國際數學與科學教育成就調查後世界各國逐漸對國際數學與科學教育成就研究感到興趣IEA便在1995年開始每四年辦理國際數學與科學教育成就研究一次稱為國際數學與科學教育成就趨勢調查(TrendsinInternationalMathematicsandScienceStudy以下簡稱TIMSS)至今已辦理過1995、1999、2003和2007共四屆共有38個國家參加。我國於1999年開始加入TIMSS後由國科會委託國立台灣師範大學科學教育中心(以下簡稱師大科教中心)負責詴題翻譯及測驗工作。1999年的調查對象只有國中二年級學生2003年的調查對象包括四年級及八年級學生。翻譯詴題主要的流程包含:從IEA取得詴題內容由師大科教中心決議進行翻譯工作分配、中文詴題交換審稿校正及翻譯問題討論最後將中文翻譯詴題定稿。至目前為止師大科教中心已將1999和2003年詴題內容和評量結果公布於台灣TIMSS官方網站[21]以提供研究之參考。在TIMSS的詴題內容上主要的題型種類有選擇題和問答題詴題句型大多為直述句和問句結構所組成選擇題則多了誘答選項。以往使用人工翻譯雖然可以達到很高的翻譯品質但是需要耗費相當多的人力資源和時間而且在翻譯過程中不同的翻譯者會有不同的翻譯標準(例如:相同的句子翻譯後的結果不同);相同的翻譯者也可能在文章前後翻譯方式不一致而產生語意上的混淆。因此間接影響詴題難易程度。若直接將英文詞彙透過英漢字典翻譯成相對的中文詞彙翻譯的結果可能會不符合一般人的用詞順序。另外中文的自由度較高很容易造成翻譯上用詞順序的不同。例如:“下圖顯示某一個國家所種穀物的分布圖”也可翻譯為“某一個國家所種穀物的分布圖如下圖顯示”。可能會影響到受測者的思緒使作答時粗心的情形會增加。因此若能利用機器翻譯(machinetranslation)的技術來輔助翻譯以及調整詞序以期提高翻譯的品質和效率。在人工智慧領域機器翻譯是一個很困難的問題。機器翻譯是指將一種自然語言經過電腦運算翻譯成另一種語言困難程度也跟來源句和目標句有關像是英文和葡萄牙文語言的特性較相近較容易翻譯。而中文跟英文詞序差異很大且中文比較沒有特定的語法寫法較自由對翻譯來說較為困難。機器翻譯發展至今已經超過50年。Dorr等學者[9]將現在機器翻譯依據系統處理的方式來分類分成以語言學為基翻譯(linguistic-basedparadigms)例如基於知識(knowledge