欢迎来到天天文库
浏览记录
ID:44912298
大小:6.26 MB
页数:69页
时间:2019-11-04
《“云藏·云使·云译——基于云计算的藏文信息处理”学术报告-卢亚军》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、云藏·云使·云译——基于云计算的藏文信息处理卢亚军*史晓东***西北民族大学机器翻译研究所**厦门大学人工智能研究所2015.12.17第一部分:云藏智能输入第二部分:云使搜索引擎第三部分:云译藏汉翻译西北民族大学机器翻译研究所第一部分:“云藏”智能输入研发动机云藏输入法特色与其他输入法的效率对比转写方案技术实现云藏和云译西北民族大学机器翻译研究所研发动机•藏文输入法已经很多了——藏文输入法自上世纪八十年代以来,陆续出现了十几种之多,但不外乎两大类型:•藏文自定义键盘输入法•拉丁转写藏文输入法西北民族大学机器翻译研究所研发动机•“藏文自定义键盘输入法”方正、华光、桑布札、WPS、同
2、元、班智达、Himalaya、央金、岗杰、阳光、彭措、琼迈、宗卡、加央、Monlam、太清、简捷……西北民族大学机器翻译研究所研发动机•拉丁转写藏文输入法:•罗圣仪等的“藏文输入编码法及其键盘”;•王维兰等的“基于英文键盘的藏文输入法”;•魏盛涛的“藏文计算机输入方法及键盘”;•曹辉的“Linux系统藏文拉丁文转写输入法”;•扎西次仁的“拉丁转写珠穆朗玛藏文输入法”。西北民族大学机器翻译研究所研发动机•何须再弄个输入法呢?•藏文输入法就易学易用性而言,与汉语输入法相比还有一定差距。•因此,“云藏”(འོདྷ་གམང་།)输入法“应运而生”西北民族大学机器翻译研究所1996年发明专利“便携式藏文打
3、字机”西北民族大学机器翻译研究所2006年央金藏文输入法(部件、整词2种)西北民族大学机器翻译研究所提纲研发动机云藏输入法特色与其他输入法的效率对比转写方案技术实现云藏和云译西北民族大学机器翻译研究所云藏输入法特色1.全用小写字母不用切换大写,简单流畅2.全简双拼可以“全拼”,也可以“简拼”,快捷方便3.藏梵通用可输入任意梵文字符4.智能组词动态组词,高频词优先,新词随打随识西北民族大学机器翻译研究所云藏输入法特色5.国际标准基于国家暨国际标准(与Unicode相一致)6.转写方与Wylie兼容符合英文习惯,面向国际社会7.方言设置支持安多、卫藏、康巴等方言自我设置
4、8.与云译结合形成云翻译输入法云译是最方便的人机合作翻译平台西北民族大学机器翻译研究所云藏输入法演示西北民族大学机器翻译研究所提纲研发动机云藏输入法特色与其他输入法的效率对比转写方案技术实现云藏和云译西北民族大学机器翻译研究所五种输入法击键次数对比数据——单字数据76543210Himalaya央金珠穆朗玛简捷云藏西北民族大学机器翻译研究所五种输入法击键次数对比数据——词组数据181614121086420Himalaya央金珠穆朗玛简捷云藏西北民族大学机器翻译研究所五种输入法击键次数对比数据——短文数据350300250200150100500Himalaya央金珠穆朗玛简捷云藏
5、西北民族大学机器翻译研究所提纲研发动机云藏输入法特色与其他输入法的效率对比转写方案技术实现云藏和云译西北民族大学机器翻译研究所藏文音节的构成•藏文是二维结构,不仅横向排列,还纵向叠加组合——“穿鞋带帽”•“云藏”藏梵文拉丁代字编码方案表1:藏文字母与拉丁代字表分组字母代字字母代字字母代字字母代字第一组ཀkཁkhགgངng第二组ཅcཆchཇjny第三组ཎtཏthཐdདྷn第四组ནpཔphཕbབྷm第五组མtsཙtshཚdzཛྷw第六组ཝzhཞzཟaའy第七组ཡrརlལshཥs第八组སhཧa----威利(Wylie)藏文拉丁转写方案西北民族大学机器翻译研究所“云藏”藏文拉丁全简双拼编码方案
6、表1解释:藏文30个字母中的27个字母与国际通用的Wylie拉丁代字保持了一致,仅有3个字母ཛྷ、ཟ、ཧ与之不同。另外,Wylie和其它拉丁转写使用了大写和ASCII码,而云藏只使用小写字母西北民族大学机器翻译研究所表2:反写梵音字母ཉtlཊthlཋdlཌdhlཌྷnlཤshl表2解释:反写梵音字母均在其对应的藏文“正写”字母后加“l”(རོག་འིག)表示。不使用大写字母。例如:ནཎིཎ(pnldlait)西北民族大学机器翻译研究所表3:厚写梵音字母གྷghདdhབbhཛdzh表3解释:厚写梵音字母均在其对应的“正写”字母之下加“h”(ས)表示。例如:ཥབྷབོཉ(smbhaotl)西北民族大学机器
7、翻译研究所表4:特殊梵音字母ཨkshl表4解释:特殊梵音字母在正写字母“ཀ”之下加“shl”(ཤ)表示。表5:4个藏文元音ིiིuིeིo表5解释:4个藏文元音与Wylie相同。藏文元音与梵音元音一样,都按书写习惯笔顺最后输入。简拼时不考虑元音,只输基字即可。西北民族大学机器翻译研究所表6:5个下加字ིyaིraིlaིwaིa表6解释:ིིིི4个藏文下加字的拉丁代字分别为ya、ra、la、wa
此文档下载收益归作者所有