以范例为基础之英汉timss詴题辅助翻译

以范例为基础之英汉timss詴题辅助翻译

ID:5354687

大小:822.54 KB

页数:15页

时间:2017-12-08

以范例为基础之英汉timss詴题辅助翻译_第1页
以范例为基础之英汉timss詴题辅助翻译_第2页
以范例为基础之英汉timss詴题辅助翻译_第3页
以范例为基础之英汉timss詴题辅助翻译_第4页
以范例为基础之英汉timss詴题辅助翻译_第5页
资源描述:

《以范例为基础之英汉timss詴题辅助翻译》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、以範例為基礎之英漢TIMSS詴題輔助翻譯張智傑劉昭麟國立政治大學資訊科學系{g9512,chaolin}@cs.nccu.edu.tw摘要本論文應用以範例為基礎的機器翻譯技術,應用英漢雙語對應的結構輔助英漢單句語料的翻譯。翻譯範例是運用一種特殊的結構,此結構包含來源句的剖析樹、目標句的字串、以及目標句和來源句詞彙對應關係。將翻譯範例建立資料庫,以提供來源句作詞序交換的依據,最後透過字典翻譯,以及利用統計式中英詞彙對列和語言模型來選詞,產生建議的翻譯。我們是以2003年國際數學與科學教育成就趨勢調查測驗詴題為主要翻譯的對象,以期提升翻譯的一致性

2、和效率。以NIST和BLEU的評比方式,來評估和比較線上翻譯系統和本系統所達成的翻譯品質。關鍵詞:自然語言處理,詴題翻譯,機器翻譯,TIMSS1.緒論國際教育學習成就調查委員會(TheInternationalAssociationfortheEvaluationofEduca-tionAchievement,以下簡稱IEA)[20]主要目的在於了解各國學生數學及科學(含物理、化學、生物、及地球科學)方面學習成就、教育環境等,影響學生的因素,找出關聯性,並在國際間相互作比較。自1970年起開始第一次國際數學與科學教育成就調查後,世界各國逐漸對

3、國際數學與科學教育成就研究感到興趣,IEA便在1995年開始每四年辦理國際數學與科學教育成就研究一次,稱為國際數學與科學教育成就趨勢調查(TrendsinInternationalMathematicsandScienceStudy,以下簡稱TIMSS),至今已辦理過1995、1999、2003和2007共四屆,共有38個國家參加。我國於1999年開始加入TIMSS後,由國科會委託國立台灣師範大學科學教育中心(以下簡稱師大科教中心)負責詴題翻譯及測驗工作。1999年的調查對象只有國中二年級學生,2003年的調查對象包括四年級及八年級學生。翻譯

4、詴題主要的流程包含:從IEA取得詴題內容,由師大科教中心決議進行翻譯工作分配、中文詴題交換審稿校正及翻譯問題討論,最後將中文翻譯詴題定稿。至目前為止,師大科教中心已將1999和2003年詴題內容和評量結果,公布於台灣TIMSS官方網站[21],以提供研究之參考。在TIMSS的詴題內容上,主要的題型種類有選擇題和問答題,詴題句型大多為直述句和問句結構所組成,選擇題則多了誘答選項。以往使用人工翻譯雖然可以達到很高的翻譯品質,但是需要耗費相當多的人力資源和時間,而且在翻譯過程中不同的翻譯者會有不同的翻譯標準(例如:相同的句子,翻譯後的結果不同);相

5、同的翻譯者也可能在文章前後翻譯方式不一致而產生語意上的混淆。因此間接影響詴題難易程度。若直接將英文詞彙透過英漢字典翻譯成相對的中文詞彙,翻譯的結果可能會不符合一般人的用詞順序。另外中文的自由度較高,很容易造成翻譯上用詞順序的不同。例如:“下圖顯示某一個國家所種穀物的分布圖”,也可翻譯為“某一個國家所種穀物的分布圖,如下圖顯示”。可能會影響到受測者的思緒,使作答時粗心的情形會增加。因此,若能利用機器翻譯(machinetranslation)的技術來輔助翻譯以及調整詞序,以期提高翻譯的品質和效率。在人工智慧領域,機器翻譯是一個很困難的問題。機器

6、翻譯是指將一種自然語言經過電腦運算翻譯成另一種語言,困難程度也跟來源句和目標句有關,像是英文和葡萄牙文語言的特性較相近,較容易翻譯。而中文跟英文詞序差異很大,且中文比較沒有特定的語法,寫法較自由,對翻譯來說較為困難。機器翻譯發展至今已經超過50年。Dorr等學者[9]將現在機器翻譯依據系統處理的方式來分類,分成以語言學為基翻譯(linguistic-basedparadigms),例如基於知識(knowledge-based)和基於規則(rule-based)等;以及非語言學為基翻譯(non-linguistic-basedparadigms

7、),例如基於統計(statistical-based)和基於範例(example-based)等。以知識為基礎的機器翻譯(knowledge-basedmachinetranslation)系統是運用字典、文法規則或是語言學家的知識來幫助翻譯。Knight等學者[11]結合Longman字典、WordNet和Collins雙語字典建立一個知識庫,運用在西班牙文翻譯成英文。這種利用字典來幫助翻譯的系統,會有一字多義的情形發生,一個詞彙在字典中通常有一個以上的翻譯。以英翻中為例“current”這個字在字典裡就有十多種不同的翻譯,即使專家也無法找

8、出一個統一的規則,在何種情況下要用何種翻譯,所以在翻譯的品質和正確性上很難滿足使用者。因此,翻譯系統通常都會限定領域來減少一字多義,例如current在電子電機類的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。