语块语料库的建设

语块语料库的建设

ID:5280350

大小:284.80 KB

页数:6页

时间:2017-12-07

语块语料库的建设_第1页
语块语料库的建设_第2页
语块语料库的建设_第3页
语块语料库的建设_第4页
语块语料库的建设_第5页
资源描述:

《语块语料库的建设》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、构建大规模的汉语语块库周强詹卫东任海波智能技术与系统国家重北京大学中文系,北京上海师范大学国际文化点实验室,清华大学计算100871交流学院,上海200234机系,北京100084摘要:本文介绍了构建200万字的汉语语块库的主要工作,包括设计语块标注体系、总结语块标注规范和协调语块加工流程等,分析了我们的标注体系与英语的CONLL-2000语块任务的主要差异,并提出了对现有标注体系的进一步理论思考和在现有语块库上的一些应用设想。1引言构建大规模标注语料库是语料库语言学发展的重要基础。在英语方面,百万词次规模的词性标注语料库—

2、—Brown语料库的建成,直接促使了基于统计的词性标注模型:HMM模型和自动标注算法:Viterbi算法的提出和完善。大规模的句法树标注语料库——Penn树库的建立,则为许多基于统计的自动句法分析模型提供了基础的训练素材。同时,作为一个统一的训练和测试平台,也为不同分析算法处理性能的评估提供了客观的依据。近几年来,随着部分分析技术的不断发展和应用范围的不断扩大,对处于中间层次的语块(chunk)标注语料库的开发也越来越受到重视,出现了一些较大规模的语块标注语料库,如CONLL-2000的语块库[TB00]等。在汉语方面,经过

3、近几年的研究,已经建立了几个较大规模的切分和词性标注语料库,包括清华大学的200万字的平衡语料库和北京大学与富士通合作开发的人民日报语料库。在树库构建方面,也已取得一些成果,包括清华大学的汉语测试树库[ZS99]、美国宾州大学的UPenn树库[XP00]和台湾中研院的树库项目[HCC00]。但对语块标注和部分句法分析的研究还比较少。本文介绍了我们在汉语语块标注体系设计和大规模语块库构建方面进行的一些初步探索。下面的第2节比较详细地介绍了我们的语块描述体系,并与CONLL-2000的标注体系进行了比较,分析了两者的不同之处。第

4、3节介绍了我们的语块库构建工作,包括基础语料库资源、语块标注规范和语块加工流程等,并给出了一些基本的语块库统计数据。第4节进一步分析了语块与论元结构的关系以及语块与韵律结构的关系等。最后的第5节展望了在现有的语块库上可以进一步进行的一些句法分析和知识获取研究设想。2语块描述体系Abney(1991)最早提出了一个完整的语块描述体系。他把语块定义为句子中一组相邻的属于同一个s-投射(s-projection)的词语的集合,建立了语块与管辖约束(GB)理论的X-bar系统的内在联系,从而奠定了这个语块描述体系的比较坚实的理论基础

5、。在此前后,一些应用系统的研究重点则主要集中在名词短语的识别上,其中包括基本名词短语(BaseNP)([Chu88],[RM95])和最长名词短语(MNP)([LZ95],[ZSH00])。在其他语块或基本短语方面的研究则比较少。最近比较完整的工作是Buchholz&al.(1999)。他们探索了NP,VP,PP和ADJP等基本短语的自动识别方法。另外,Veenstra(1999)也识别了NP,VP和PP块。他们的研究为CONLL-2000提出的语块共享研究计划打下了基础。去年举行的自然语言学习国际会议(CONLL-2000

6、)提出的语块共享任务(ChunkingSharedTask)旨在开发出一个大规模的英语语块库,为基于统计的不同部分分析方法的探索提供统一的训练和测试库。他们采用了Abney的语块描述框架,并对一些语块进行了分解和细化,其中的一些差异可以从下面的例子中看出来(其中例句1采用了Abney的标注体系):(1)[He][reckones][thecurrentaccountdeficit][willnarrow][toonly$1.8billion][inSeptember].(2)[NPHe][VPreckones][NPthec

7、urrentaccountdeficit][VPwillnarrow][PPto][NPonly$1.8billion][PPin][NPSeptember].语料则取自Penn树库的华尔街日报(WSJ)部分。利用自动程序将分析树标注文本直接映射成不相交、无嵌套的语块标注文本,并保留了原来的大部分句法成分标记。目前抽取的语料规模约为30万词,平均每个语块包含2个词。表2列出了其中最常见的几个语块的信息描述,有关的详细资料可参阅[TB00]。表2CONLL-2000的常见语块描述表1我们的语块标记集语块标记语块描述语块标记语块

8、描述NP名词短语S主语短语VP动词短语P述语短语PP介词短语(大部分情况下只包含一O宾语语块个介词)J兼语语块ADVP副词短语D状语语块SBAR小句(subordinatedclause)(大部C补语语块分情况下只包含一个从属连词)T独立语块ADJP形容词短语Y语气块我们从2000年3月起

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。