欢迎来到天天文库
浏览记录
ID:5385394
大小:226.48 KB
页数:16页
时间:2017-12-08
《树库的标注及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、树库的标注及应用AnneAbeillé,ed.,2003,Treebanks:BuildingandUsingParsedCorpora,KluwerAcademicPublishers.(Text,SpeechandLanguageTechnologyVolume20)詹卫东导读1学科背景及本书的定位树库(Treebank)属于深加工语料库,是语料库语言学和自然语言处理(NLP)技术发展到相对成熟阶段的产物。宽泛而言,语言研究一直以来都离不开“语料”。但从“语料”到现代意义的“语料库”,是从二十世纪五六十
2、年代伴随着电子计算机的应用才开始的,其发展轨迹及趋势有几个明显特点:(1)语料库规模不断扩大,类型不断多样化。(2)标注信息不断丰富。(3)应用范围不断拓宽。这些特点是跟过去半个世纪整个信息社会大环境的飞速变化和NLP技术的进步分不开的。计算机存储能力和互联网的加速发展,使得电子化的大规模的自然语言资源越来越容易获得。从上世纪六十年代起步时的百万词级规模到八九十年代的上亿词级规模,再到今天语料库的规模已不再成为人们关心语料库的重点,不难感受到这种惊人的扩容速度。与此同时,语料也从原始形态的生语料库发展到经过
3、多级标注(annotation)的所谓熟语料库。标注的信息从一般的词语形态信息,词类信息等很快发展到了标注句法结构、句法功能、语义角色信息等等。标注词类信息的语料库跟原始语料一样仍然保持着一维串性结构,而标注了句法结构、句法功能信息的语料库则因描述了词语(以及词组)之间的层级组合关系,成为二维的树状结构(TreeStructure),因此这样的语料库就被称为树库。像树库这样的带标语料库的发展还明显得力于NLP技术本身发展的推动。这一方面是NLP技术的发展需要有树库这样的深加工语料库提供数据支持。另一方面则是
4、由于NLP技术的进步反过来大大提高了树库加工的效率,减低了人工成本,使得树库加工成为切实可行的一项工作。从上世纪九十年代开始,NLP的主流技术从基于规则的方法开始纷纷转向基于统计的方法,在这样的背景下,来自真实语料的语言统计数据逐渐取代以往由人工归纳的语言学专家知识,成为NLP应用系统所依赖的主要知识源。在词类标注、句法分析、机器翻译等许多NLP技术的相关评测中,基于统计方法的系统都取得了更胜一筹的成绩,从而吸引了更多的研究人员来推进这种数据驱动型NLP技术的研究。尽管构建树库是相对成本比较高的语言工程,但
5、受到英语树库的成功鼓舞,从上世纪九十年代中后期开始,其他语种也陆续启动了树库加工项目。随着机器学习技术在NLP领域应用热潮的不断升温,树库的研究和应用也受到越来越多的重视,不但涉及的语种已经扩展到几十个,而且句法标注所依据的理论体系也由生成语法的短语结构语法发展到中心语驱动短语结构语法(HPSG),依存语法(DependencyGrammar)、词汇功能语法(LFG)等等多种理论框架并存的局面(有的树库甚至是把短语结构跟依存关系的标注融合到一块进行标注)。本书出版于2003年,距离上世纪90年代初英语树库问
6、世已有10年。尽管如编者在导言中所说的,树库作为语言资源的一种新形式,本书的多数篇幅是在讨论如何加工树库,有关如何使用树库的篇幅相对较少,但仍然可以说全书内容基本反映了这10年间树库研究的整体面貌,是树库研究发展到一定阶段的一个比较全面的总结,起到了承前启后的作用。2内容提要本书正文共21章,正文之前有一篇导言(Introduction)。导言是本书编者对全书内容的概括介绍。21章中有的是专为本书撰写的,有的则是由发表在一些相关会议上的论文改写的。21章内容分为两大部分:第一部分从第1章到第15章,讲如何构
7、建树库;第二部分从16章到第21章,讲如何使用树库。第1章到第4章介绍了英语树库的构建。内容分别是美国宾州树库的整体情况介绍,对近20年英语树库构建工作的思考,英语语料库(BankofEnglish)的词汇形态标注、句法标注以及后续的句法功能标注,ICE-GB(国际英语语料库-英国部分)树库的句法结构校对方法。第5章和第6章介绍了德语树库的构建,分别是德语新闻语料库的句法标注,德语新闻组语料库(USENET)的错误类型标注。第7章和第8章是两种斯拉夫语族语言树库的构建,第7章介绍捷克语树库的构建;第8章介绍
8、基于HPSG的波兰语句法测试语料库。第9章到第12是四种罗曼语族语言树库的构建,第9章介绍西班牙语树库的开发;第10章介绍法语树库的构建;第11章介绍意大利语句法-语义树库的构建;第12章介绍了一个中世纪葡萄牙语树库的构建。第13章到第15章是其他语种树库的构建情况介绍,第13章介绍了台湾中研院Sinica中文树库;第14章介绍了日语树库;第15章介绍了土耳其语树库。第16章介绍了树库标注的编码形式。第17章和第
此文档下载收益归作者所有