从语料库中挖掘知识-北语

从语料库中挖掘知识-北语

ID:23824896

大小:1.50 MB

页数:21页

时间:2018-11-11

从语料库中挖掘知识-北语_第1页
从语料库中挖掘知识-北语_第2页
从语料库中挖掘知识-北语_第3页
从语料库中挖掘知识-北语_第4页
从语料库中挖掘知识-北语_第5页
资源描述:

《从语料库中挖掘知识-北语》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、语言信息处理与汉语知识研讨会,2010/5/29-30,北京语言大学从语料库中挖掘知识MiningKnowledgefromCorpus冯志伟提要:本文主要介绍中国传媒大学依存树库研究团队从依存树库中获取语言学知识的一些工作,如,汉语名词语法功能的研究,20种语言中心词居前与中心词居后的分布研究,汉语复杂网络的研究。这些工作都是在汉语依存树库的基础上进行的。本文也简要地介绍了国外从语料库中获取非语言学知识的研究。20世纪90年代以前,从事计算语言学系统开发的绝大多数学者,都把自己的目的局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于

2、规则的句法-语义分析,尽管这些应用系统在某些受限的“子语言”(sub-language)中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。因为从自然语言系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的。而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,不得不另辟蹊径。这样,就提出了大规模真实文本的自动处理问题。1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议(即COLING'90

3、)为会前讲座确定的主题是:“处理大规模真实文本的理论、方法和工具”,这说明,实现大规模真实文本的处理将是计算语言学在今后一个相当长的时期内的战略目标。为了实现战略目标的转移,需要在理论、方法和工具等方面实行重大的革新。1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(TMI-92)上,宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”。所谓“理性主义”,就是指以生成语言学为基础的方法,所谓“经验主义”,就是指以大规模语料库的分析为基础的方法。从中可以看出当前计算语言学关注的焦点。当前语料库的建设和语料库语言学的崛起

4、,正是计算语言学战略目标转移的一个重要标志。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法(即经验主义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。因为从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。但是,要想使语料库名符其实地成为自然语言的知识库,就有必要首先对语料库中的语料进行自动标注,使之由“生语料”变成“熟语料”,以便于人们从中提取丰富的语言知识。可以看出,计算语言学现在正在面临着一场战略转移。这场战略转移的关键是知识的获取方式和方法:从依靠“内省”方

5、式转向依靠“语料”的方式,从基于“规则”的方法转向基于“统计”的方法。面对计算语言学的战略转移,我觉得,语言学在获取知识的方式方法也应当进行一场战略转移。与计算语言学相似,传统语言学家获取语言知识的方法基本上是通过“内省”进行,由于自然语言现象充满了例外,治学严谨的学者们提出了“例不过十不立,反例不过十不破”的原则,这样的原则貌似严格,实际上却是片面的。在成千上万的语言数据中,只是靠十个例子或十个反例就来决定规则的取舍,难道真的能够保证万无一失吗?显然是不能保证的。因此,“例不过十不立,反例不过十不破”的原则只是一个貌似严格的原则,实际上是一

6、个很不严格的原则。现在,是抛弃这个原则的时候了。语料库是客观的、可靠的语言资源,语言学研究应当依靠这样的宝贵资源。语料库中包含着极为宝贵的语言知识,我们应当使用新的方法和工具来获取这些知识。当然,前辈语言学家数千年积累的语言知识(包括词典中的语言知识。语法书中的语言知识)也是宝贵的,但由于这些知识是通过这些语言学家们的“内省”或者“洞察力”发现的,难免带有之主观性和片面性,需要我们使用语料库来一一地加以审查。语言学的一切知识,都有必要放到语料库中来检验,决定其是正确的,还是片面的,还是错误的,甚至是荒谬的,从而决定其存在的必要性,决定其是继续

7、存在,还是放弃其存在。我们可以预见,语言学研究战略转移的时代必将到来!一种新的基于语料库的研究方式必将代替传统的依靠“内省”的研究方式,“内省”的研究方式今后只能是基于语料库研究方式的补充,而决不能是语言学研究的主流。“从语料库挖掘知识”—这应当现代语言学的基本研究方法。自然语言处理中的战略转移,必将影响到传统的语言学,传统语言学战略转移的时刻或迟或早总会来临。从语料库可以挖掘的知识,可以是语言学的知识,也可以是非语言学的其他有用的知识。由于时间的限制,这里我们着重讲怎样从语料库挖掘语言学知识,最后,我们举一个例子说明怎样从语料库中挖掘非语言

8、学知识。一、从语料库中获取语言学知识语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。