资源描述:
《基于语料库和面向统计学的自然语言处理技术介绍》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于语料库和面向统计学的自然语言处理技术介绍周强北京大学计算语言学研究所北京,100871摘要:本文主要介绍了一些常用的基于语料库和面向统计学的经验主义处理技术,包括:Shannon的噪声信道模型及其它在语言信息处理中的应用,统计语言模型的构造和参量估计及参数平滑方法,基于优先的分析技术等.并对这种技术在汉语自动分析中的应用提出了一些看法。关键字:基于统计的处理技术,语料库语言学。1.引言“语料库语言学(CorpusLinguistics)是80年代才崭露头角的一门计算语言学的新的分支学科。它研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有
2、上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用”([HCN90]).语料库语言学研究的基础是机器可读的大容量语料库和一种易于实现的统计处理模型,两者是相辅相成、缺一不可的.从本质上讲,语料库语言学的研究采用的是一种基于统计的经验主义处理方法,它与传统的基于规则的理性主义处理方法是很不相同的.其实,早在1949年,WarrenWeaver([Wea49])就提出了一个设想,认为可以利用信息论的编码思想,使用一种统计的方法,来解决机器翻译的问题。五十年代,经验主义更是处于它的鼎盛时期,它统治了从心理学(行为主义)到电子工程(信息论)的
3、广泛的领域.在那时候,不仅依据词的意义而且依据它们与其它词的共现情况对词进行分类,是语言学上的常规操作。但是,随着五十年代末到六十年代初一系列重大事件的发生,包括Chomsky在“句法结构”([Ch57])中对n元语法(n-gram)的批评和Minsky和Papert在“视觉感控器(Perceptrons)”([MP67])中对神经网络的批评,对经验主义的兴趣逐渐减退了.近年来,计算机技术得到了飞速的发展,机器的存储量越来越大,运算速度越来越快,而价格却越来越便宜,这样的客观条件使大容量的机器可读语料库的建设成为可能.仅仅在十几年以前,一百万词的Brown语料库([FK82]
4、)还被认为是巨大的,但从此以后,出现了更大的语料库,例如:二千万词的Birmingham语料库([Sin87]).今天,许多地方都有了达到几亿甚至数十亿词的文本样例.同时,一些新的、更好的统计语言模型也开始出现.而且,随着自然语言理解系统的不断实用化,知识获取问题已成为一个瓶颈,基于规则的NLP系统在处理大规模的非受限真实文本中遇到的种种困难,促使广大研究人员去探索和采用一种新的研究思想。所有这些因素,推动了基于语料库的经验主义研究方法成为目前NLP研究中的一个热点.本文主要根据笔者目前所掌握的一些资料,对基于语料库和面向统计学的经验主义处理技术作一个简要的介绍.在下面的几节
5、中,第2节将给出这种技术的基本处理思想和所用到的一些基本概念及术语.第3节主要讨论Shannon的噪声信道模型在语言信息处理中的应用。第4节分析语言模型构造和进行参量估计的方法。第5节将讨论大量基于频度的优先信息在语言分析中的应用.最后是结束语。2.基于语料库和面向统计学的处理技术在语料库语言学中,基于统计的处理技术是从语料库中获取各种所需要的知识的主要手段.它的基本思想是:i).使用语料库作为唯一的信息源,所有的知识(除了统计模型的构造方法)都是从语料库中获得的.ii).使用统计方法获取知识:知识在统计意义上被解释,所有参量都是通过统计处理从语料库中自动习得的.要了解和熟悉
6、这种处理技术,必须了解一定的概率论、信息论和数理统计的知识。下面简单地介绍一下其中的一些基本概念和术语:1).概率P(A)表示在一个样本空间中,事件A发生的可能性.例如:扔硬币时得到正面的概率P(A)=0.52).条件概率P(A
7、C)表示在事件C发生的条件下,事件A发生的可能性.例如:给定一个特定的词w,它在语料库中作名词n的概率为P(n
8、w)。3).联合概率P(A,B)表示事件A和B同时发生的可能性.例如:在语料库中,词x和词y同时出现的概率为P(x,y)。4).贝叶斯计算模型在概率论中,贝叶斯公式描述了通过一系列先验概率计算后验概率的一种方法,其具体定义为:nP(
9、)()
10、BAiiPAPAB(
11、)i=n,(i=1,2,...,n)且∑PA()i=1i=1∑PBAPA(
12、)()jjj=1考虑其最简单的形式,则有:PB(
13、)()APAPB(
14、)()APAPAB(
15、)==PBAPAPBAPA(
16、)()(
17、)()+PB()此公式为解决语料库研究中大量的限制性对应问题提供了有力的支持.N15).平均值:µ$=∑xiNi=1表示数列x12,,...,xxN的算术平均值.N2126).方差:σ$=∑(xi−µ$)Ni=1表示数列x12,,...,xxN相对于平均值的离散程度.7).熵: