欢迎来到天天文库
浏览记录
ID:15436172
大小:287.50 KB
页数:5页
时间:2018-08-03
《什么是世界上最怪异的语言?》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
什么是世界上最怪异的语言?什么是世界上最美丽的语言?哪国的语言最好听?哪门外语最好学?最难学的是哪门外语?学什么第二外语好?编辑的话:本文的作者是一家语言数据公司的CEO,这家公司为世界各地的企业提供结构化的语言解决方案——简单说,就是处理邮件、短信和社交媒体上的自然语言资料。自然语言(NaturalLanguage)是我们人类交流时所用的语言,与人造语言(如编程语言)相对;自然语言处理(NaturalLanguageProcessing,NPL)就是用计算机来处理人类的语言。评估语言的“怪异度”就是一种对自然语言的处理,这个话题本身固然有趣,而本文的价值还在于作者采取了一种非传统的处理方式:不以英语为衡量基准,而使用一个全球性的价值观。(文/RobertMunro)我们主要是搞自然语言处理,涉及相关语言繁多。过去6个月,我们研究的语言有(深呼吸):英语、葡萄牙语(巴西葡萄牙语及葡萄牙本地语)、西班牙语、意大利语、法语、俄语、德语、土耳其语、阿拉伯语、日语、希腊语、汉语普通话、波斯语、波兰语、荷兰语、瑞典语、塞尔维亚语、罗马尼亚语、韩语、匈牙利语、保加利亚语、印地语、克罗地亚语、捷克语、乌克兰语、芬兰语、希伯来语、乌尔都语、加泰罗尼亚语、斯洛伐克语、印尼语、马来语、越南语、孟加拉语、泰语,以及一点拉脱维亚语、爱沙尼亚语、立陶宛语、库尔德语、约鲁巴语、阿姆哈拉语、祖鲁语、豪萨语、哈萨克语、信德语、旁遮普语、他加禄语、宿雾语、丹麦语和纳瓦霍语。自然语言处理(NaturalLanguageProcessing,下称NLP)就是要找到语言的模式。例如:录入大量非结构化的文本,自动从中抽离结构。NLP有一个公开的秘密:它极以英语为中心。英语无疑是语言学家研究最多的一门语言,于计算机科学项目而言,也是具有最多可用资源的一门语言(就计算机科学而言,数据总是越多越好)。因此,测试一个NLP系统的最佳方式之一,就是换用不是英语的语言来测试。一个系统处理多样化数据的能力越强,那么其应付未预见数据的能力,也就更令人有信心。为此,我们也许可以选择去根据英语的特性来定义“怪异度”。但是,这样的定义可是相当令人恼火。所以咱们来试试换一种方法吧。 纵观全球,纠出“语言异类”语言结构世界地图(WorldAtlasofLanguageStructures,下称WALS)根据一大堆各种语言特征,评估2676种不同的语言。这些语言特征包括词序、声音种类、否定方式,以及许多其他方面——共计192种不同的语言特征。因此,与其采用一个以英语为中心的世界观,WALS毋宁允许我们换用一个世界性的世界观。也就是说,我们评估每一门语言,根据的都是其每种语言特征的不寻常度。例如,英语的词序是“主语—动词—宾语”, WALS对1377种语言的词序进行编码,其中35.5%具有“主动宾”词序。同时,只有8.7%的语言以动词作为起始,比如威尔士语、夏威夷语和马扬语(Majang)。因此,从跨语言学角度讲,以动词作为起始,就是不寻常。另外顺带一提,实际上全世界语言有41.0%是“主宾动”顺序。(题外话:从事了一些夏威夷语和马扬语的相关工作后,动词对我而言,简直就变成如结婚般重大的承诺:每每开口,我却总是还没有做好准备。)WALS的数据相当稀疏,所以我们把研究限定于165种语言特征,这些特征至少要包含100种不同语言的数据。(现阶段,就这165种语言特征而言,数据不足其中10种的语言,我们也剔除掉了。因此共计还剩1693种语言。)现在,有个问题就是,如果我们的筛选到此为止,那么数据共线性太高。之所以如此,部分是因WALS中列举的语言特征本质而决定——有整体考量“主语/动词/宾语”顺序的特征项,另又有分别考量“宾语/动词”和“主语/动词”的项。理想情况下,我们希望基于不相关的特征评断怪异度。我们可以集中关注互相之间没有很强相关度的语言特征(在两种互相关联的特征中,我们选择有更多语言编码的特征)。最终我们筛得总计21种语言特征。至于某种语言的每项数据值,我们考量其他所有具备该项编码的语言,计算该项值的相对频度。因此,如果我们把“主语—宾语—动词”词序也算进来的话,那么英语得到的怪异度值就会是0.355(实际上,我们根据每项语言特征的整体熵值对所有数据值统一化处理,所以这个值本身并不正好就是0.355,但你懂这意思就行了)。因此,得到的“怪异度指数”(WeirdnessIndex),就是一项交叉考量21种独特结构特征的平均值。但是,因为不同的特征采集数值的数量不同,我们为了减少统计偏斜,实际上取了调和平均值(又因为我们希望“数字越大=越怪异”,所以终值是用1减去这个平均值)。本篇博文我汇报所涉及的语言,就这21项语言特征而言,至少三分之二(即14项)具有数据值(即239种语言)。答案揭晓:全世界最怪异的语言是——与全世界大多数语言最不同的语言,是一种以动词起句的声调语言,在墨西哥的瓦哈卡(Oaxaca)有6000人使用,名叫“恰卡通戈米斯特克语”(ChalcatongoMixtec),又名“大圣米格尔米斯特克语”(SanMiguelelGrandeMixtec)。第二名在西伯利亚有2.2万人使用:涅涅茨语(Nenets)——英文里“派克大衣”或称毛皮风雪大衣(parka)一词就来源于这种语言。第三名是乔克托语(Choctaw),约有1万人使用,大多在美国俄克拉何马州。但是,难就难在这儿了——有些实际上最怪异的语言,是你听说过的:德语、荷兰语、挪威语、捷克语、西班牙语,以及汉语普通话。而且,实际上英语在“语言怪异度指数”(LanguageWeirdnessIndex)表中也位列第33名。 世界上最怪异的25种语言:北美洲的,恰卡通戈米斯特克语、乔克托语、大梅萨迪埃格诺语(MesaGrandeDiegueño)、库特奈语(Kutenai)、索克语(Zoque);南美洲的,帕乌玛利语(Paumarí)、特鲁迈语(Trumai);澳洲暨大洋洲的,皮詹加加拉语(Pitjantjatjara)、拉伍卡莱维语(Lavukaleve);非洲的,哈勒尔奥罗莫语(HararOromo)、伊拉库语(Iraqw)、刚果语、穆穆耶语(Mumuye)、祖候语(Ju|'hoan)、科伊科伊语(Khoekhoe);亚洲的,涅涅茨语、东亚美尼亚语、阿布哈兹语、拉达克语、普通话;以及欧洲的:德语、荷兰语、挪威语、捷克语和西班牙语。顺带一提,皮詹加加拉语(Pitjantjatjara),这名字还能更牛吗?(另外,你能猜出这个拉丁化拼写中哪个音节不发音吗?*)以两项特征为例:问句与代词“这很怪。这很怪吗?”(Thisisodd.Isthisodd?)区分各种语言的特征之一,是“是非问句”的提问方式。绝大多数语言都有特别的疑问语助词,添加在句中某处(例如日语问句句末的“か”[ka])。在WALS中,有954种语言具有这项值的编码,其中584种有疑问语助词。(译注:又如本段段首的普通话提问方式,添加语助词“吗”实现简单疑问句提问。)但像英语那样的提问方式,即调换词序,其比例在所有语言中仅为1.4%。也就是说,一共只有13种语言采用这样的方式,而它们大部分都是欧洲语言:德语、捷克语、荷兰语、瑞典语、挪威语、弗里西亚语、英语、丹麦语和西班牙语。但还有一种语言,其是非问句的提问方式更加不走寻常路,那就是恰卡通戈米斯特克语:提问时,什么都不变。我们调查所涉及语言中,唯有这种语言提问时没有疑问语助词,没有词序调换,没有语调变换……这种语言就“是否”提问时,以及作简单陈述时,讲话真的是毫无任何区别。我花了好些时间,想象用这种语言做电视游戏节目会是什么样。语言还需应付的另一个问题,是如何处理简单主语代词,比如“我”(I)、“他们/她们/它们”(they)、“它”(it)。这些词称为“代词主语”(而像“有关部门负责人含糊其辞”这样的说法则是使用了名词主语)。最通常的做法,是将代词信息附加到动词上——所调查的711中语言中有437中语言采用这样的做法,如西班牙语、意大利语和葡萄牙语。但是,荷兰语、德语和挪威语,与英语 一样,宁可使用特别的主语代词,而这些代词通常——或必须——在句中出现。不过,在WALS有编码的711种语言里,也只有82种语言采用这样的处理方法。库特奈语(加拿大不列颠哥伦比亚省有100人使用)和穆穆耶语(尼日利亚有40万使用者)的处理方法更不寻常:它们有类似主语代词的东西,但其在句法中的位置,则与完整名词性短语的位置不同。而比这还更不寻常的,又是恰卡通戈米斯特克语:这种语言混合多种不同策略,所以既有附着在动词上的主语标记,又有代词,而且这些代词在句中出现的位置,还与完整名词短语不同。世界上最“不怪异”的语言如果我现在请你考虑一下以下这几种语言,你觉得它们有多怪呢?立陶宛语、印尼语、土耳其语、巴斯克语,以及粤语。吓一跳吧!它们的怪异指数排名相当低呢。对于语言学家和语言学习者而言,这几种语言可能并不显得典型;但就我们研究的21种语言特征而言,它们相当随大溜。请注意,在怪异度各级分布中,我们有一些孤立语言(比如巴斯克语)。巴斯克语很“典型”;但是另一种孤立语言,库特奈语,则相当怪异。更令人惊讶的是,汉语普通话名列25大最怪异语言,但粤语却栖身倒数十大。这与二者发音系统不同有关:与粤语不同的是,普通话有小舌延续音(uvularcontinuants),而且在软颚鼻音方面有一些局限(普通话同英语类似,可以发出英语“song”词尾的那个音,比如汉语“颂”[sòng];但无法将这个尾音置于单词的词首发音——世界性地来看,这个特定限制实属罕见。)而在怪异指数列表最末尾的几种语言里,有两种你听过,有3种你可能没听过:匈牙利语,通常享有“语言学异类”的美誉,但在我们考量的这些维度里,却是彻头彻尾的典型语言。(我去年夏天在布达佩斯住过,我发誓匈牙利语绝对有其怪异之处,只是隐藏在其他地方了而已。)查莫罗语(关岛有9.5万使用者)、阿伊努语(仅在日本有少量使用者的濒危语言),以及布雷佩查语(Purépecha,5.5万使用者,多在墨西哥),这三种语言都很正常。但是,所有语言中最最正常、超级典型、最不诡异的一种语言,怪异指数仅0.087的语言,是印地语——只有一项怪异特征。这一点,一部分说明,有些你想当然以为正常的语言(如英语、西班牙语或德语),其实一贯与世界上其他语言格格不入。这令我想起心理学的一个基本问题:如果我们调查研究主要基于大学生——即如约瑟夫•亨利希(JosephHenrich)及其同事所认为的,西方的、受过教育的、工业化的、富裕的、民主的大学生——那么这样的研究,其概括程度到底能有多高?换句话说,有时输入的信息本身就“不正常”,或曰怪异,那你就要问问自己,这是否会导致研究的变化。你讲英语,你很怪尽管这里采用的方法没有以英语界定,但仍然夹带了一些文化特异性的私货。即是说,开发这个系统以及注释这些语言特征的语言学家,大部分都是欧洲语言使用者。如果换为巴布亚新几内亚、埃塞俄比亚或亚马逊的某个人来做研究,最终确定的语言特征又是哪些呢?而且,当然,WALS并不具备全球约4000种语言的所有数据;其所拥有数据资料的语言,也并不真正足够随机。话虽如此,英语排名仍然很高,是挺不寻常的一种语言(排名33位,指数值0.756)。如果你能带着一个英语思维的大脑,去读这篇文章英语原文,那你可真是怪怪哒。(译注:你操汉语,能读这篇译文,那你的脑子更怪。) 附录:十大与倒数十大下列为怪异语言列表十大及倒数十大,共20种语言。排位语言名称(中)语言名称(英)怪异度指数1米斯特克语(恰卡通戈)Mixtec(Chalcatongo)0.9722涅涅茨语Nenets0.9353乔克托语Choctaw0.9244迪埃格诺语(大梅萨)Diegueño(MesaGrande)0.9205奥罗莫语(哈勒尔)Oromo(Harar)0.9196库特奈语Kutenai0.9087伊拉库语Iraqw0.9008刚果语Kongo0.8839亚美尼亚语(东部)Armenian(Eastern)0.86110德语German0.858...... 230巴斯克语Basque0.189231波罗罗语(译注:巴西)Bororo0.153232克丘亚语(因巴布拉)Quechua(Imbabura)0.151233乌桑语(译注:巴布亚新几内亚)Usan0.151234粤语Cantonese0.143235匈牙利语Hungarian0.132236查莫罗语Chamorro0.128237阿伊努语Ainu0.128238布雷佩查语Purépecha0.100239印地语Hindi0.087内容注释:译注:原文表述略有不当;皮詹加加拉语(Pitjantjatjara)在当地原住民语言中或可简称为“皮詹加拉语”(Pitjantjara[ˈb̥ɪɟanɟaɾa]),所以这个完整的拉丁化拼写并非“有一个音节不发音”,而只是有一个音节“可以”省略且不发音。
此文档下载收益归作者所有
举报原因
联系方式
详细说明
内容无法转码请点击此处