欢迎来到天天文库
浏览记录
ID:55550226
大小:31.50 KB
页数:8页
时间:2020-05-16
《CTB-词性标注中文版翻译.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、CTB词性标注指南第一章引言中文几乎没有屈折语素。譬如,词语不随时态、格、人称和数量而曲折变化。因此,对特定文本中的词进行词性标注往往都很困难。这个文件是专为宾州中文树库项目[XPS+00]所设计的。这个项目的目标是构建一个十万词的有语法托架的中文官话文本语料库。标注包括两个步骤:第一阶段是中文分词和词性标注,第二阶段是句法托架。每个步骤包括至少两个经过,即数据库由一个标注者标注,结果文件由另一个标注者检查。词性标注指南,就如分词指南和托架指南,在项目进行过程中已经修订了多次。到目前为止,我们已经在我们的网站上发行了三个版本:第一部草作完成于1998年12月,在第一个中文分词和词性标注
2、文件发行后;第二部草作完成于1999年3月,在第二个中文分词和词性标注文件发行后;这个文件,是第三部草作,修订于第二个托架文件发行后。在这个第三部草作中,与前两部草作相比,主要改变在于:(1)我们增加了一章引言来解释指南中存在的一些基本原理;(2)我们增加了对中文词语的注释;(3)我们把这个指南写成了一个技术性报告,报告被发表于宾夕法尼亚大学认知科学研究机构(IRCS)。1.1标注标准词性标注(POS)的核心问题是词性标注是否应该基于意义或者句法分布来标注。这个问题自1950年以来就被热烈争论到现在,并且始终存在两种不同的观点。譬如,中文词“毁灭”可以被翻译为英文中的destroy或d
3、estroys或destroyed或destroying或destruction,并且如它英文所对应的词一样使用。根据第一种观点,词性标注应该只基于意义。因为词的意义在它所有的用法中基本都是一样的,它就应该总是被标注为一个动词。第二种观点是词性标注应该由词的句法分布来决定。当“毁灭”是一个名词短语的首词,它在那个文本中就应该被标注为一个名词;当“毁灭”是一个动词短语的首词,它就应该被标注为一个动词。我们选择了句法分布作为我们词性标注的主要标准,因为这与当代语言学理论所采纳的原则一致,譬如X-bar理论和GB理论中的首字投射概念。由于很多中文动词也出现在名词位置,因此需要两个词性标注标记
4、,这就导致使用句法分布方法将会扩大词典的规模,因此这个原因常被用来反对句法分布方法。我们认为这个观点不足以让人信服,主要有如下两个理由。首先,两个词性标注标记可以让我们区别可以出现在名词位置的动词和不可以出现名词位置的动词(譬如单音词动词和重叠词形式的动词如AABB,A不A)。如果存在动词可以出现在名词位置或者不能出现在名词位置的实词虚化现象,这些实词虚化可以被看做构形规则,这会使得词典自动被扩大。另一方面,如果不存在这样的实词虚化现象并且名词化过程大部分都很特殊,这就验证了一个观点:这是一个词汇现象并且那些可以被名词化的动词在词典中应该有两个词性标注标记。其次,很多动词可以出现在名词
5、位置的现象并不只存在于中文,在其他语言中设立的标准也是给予这些词两个标记。1.2词性标注标记集我们的词性标注标记集有33种标记:动词,形容词(4):VA,VC,VE,VV。名词(3):NR,NT,NN。定位(1):LC。代词(1):PN。限定词和数词(3):DT,CD,OD。度量词(1):M。副词(1):AD介词(1):P。连词(2):CC,CS。助词(8):DEC,DEG,DER,DEV,SP,AS,ETC,SP,MSP。其他(8):IJ,ON,PU,JJ,FW,LB,SB,BA。1.3词性标注标记集假设我们从一个大部分人认同的小型词性标注标记集开始,其中包括名词、动词、副词、介词等
6、的标记。问题在于我们是否应该用一组更为具体的标记{T1,T2,…,Ti,…,Tn}来取代每个标记T。有如下几个因素需要考虑:·通常,由于有相同词性标注标记的词都具有极为相似的句法分布,标注需要一个很大的标记集。另一方面,标记集越大,标注起来越困难。因为标注者需要记住更多标记、更多测试并且应用一致。因此,当我们决定一个标记集时,我们需要作出妥协。·设置一组(T)作为标有词性标注标记T的词的标记集。如果没有好的测试把标记集(T)中的每个词分配给任一标记Ti,并且{Ti}相比T没有提供更多有意义的信息,那么我们就不会把T分割成标记集{Ti}。·如果集合(T)是一个闭合标记集并且对于每组(i,
7、j),标记集(Ti)和(Tj)的交集为空,那么通过一个简单的转换程序可以把词/T自动取代为词/Ti。因此,如果我们想用{Ti}中的具体标记来标注词语,这个转换过程可以由程序来自动完成,而不是通过标注者手动转换。1.4处理困难案例有时候,我们不是很确定一个文本中的某个词是否应该被标注为X或Y。如果我们确定这个词不在标记集(X)和(Y)的交集中,那么我们可以简单选择一个标记如X来标注这个词,如果有需要也可以再用Y来取代X。譬如,词语“许多”在“许多
此文档下载收益归作者所有