构建大规模的汉语语块库

构建大规模的汉语语块库

ID:34644735

大小:98.23 KB

页数:6页

时间:2019-03-08

构建大规模的汉语语块库_第1页
构建大规模的汉语语块库_第2页
构建大规模的汉语语块库_第3页
构建大规模的汉语语块库_第4页
构建大规模的汉语语块库_第5页
资源描述:

《构建大规模的汉语语块库》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、构建大规模的汉语语块库周强詹卫东任海波清华大学计算机系北京大学中文系上海师范大学智能技术与系统国家重点实验室北京100871国际文化交流学院北京100084上海200234zhouq@s1000e.cs.tsinghua.edu.cnzwd@pku.edu.cnrenhb@shtu.edu.cn摘要:本文介绍了构建200万字的汉语语块库的主要工作,包括设计语块标注体系、总结语块标注规范和协调语块加工流程等,分析了我们的标注体系与英语的CONLL-2000语块任务的主要差异,并提出了对现有标注体系的进一步理论思考和在现有语块库上的一些应用设想。关键词:语块,语块库,语料库标注Bui

2、ldalargescaleChineseFunctionalChunkBankZHOUQiangZHANGWeidongRENHaiboStateKeyLaboratoryofIntelligentDepartmentofChineseInternationalCulturalExchangeTechnologyandSystems,Dept.ofLanguage&LiteratureCollegeComputerScience,Tsinghua.UniversityPekingUniversity,Beijing,ShanghaiTeachersUniversityBeijin

3、g100084100871Shanghai200234ABSTRACT:Inthispaper,wefirstlyintroducesomeessentialissuesintheconstructionofachunkbankwith2,000,000Chinesecharacters,includingfunctionalchunkannotationschema,taggingspecificationandprocessingprocedure.Then,weanalyzethemaindifferenceofourannotationschemawithCONLL-20

4、00sharedchunkingtask,andproposesomefurthertheoreticalthoughtsofthecurrentannotationschemaandsomeapplicationtentativebasedonthecurrentchunkbank.KEYWORDS:Functionalchunk,chunkbank,corpusannotating1引言构建大规模标注语料库是语料库语言学发展的重要基础。在英语方面,百万词次规模的词性标注语料库——Brown语料库的建成,直接促使了基于统计的词性标注模型和自动标注算法的提出和完善。大规模的句法树

5、标注语料库——Penn树库的建立,则为许多基于统计的自动句法分析模型提供了统一的训练和测试平台。近几年来,随着部分分析技术的不断发展和应用范围的不断扩大,对处于中间层次的语块(chunk)标注语料库的开发也越来越受到重视,出现了一些较大规模的语块标注语料库,如CONLL-2000的语块库[1]等。在汉语方面,经过近几年的研究,已经建立了几个较大规模的切分和词性标注语料库,包括清华大学的200万字的平衡语料库和北京大学与富士通合作开发的人民日报语料库。在树库构建方面,也已取得一些成果,包括清华大学的汉语测试树库[2]、美国宾州大学的UPenn树库[3]和台湾中研院的树库项目[4]。

6、但对语块标注和部分分析的研究还比较少。本文介绍了我们在汉语语块标注体系设计和大规模语块库构建方面进行的一些初步探索。下面的第2节比较详细地介绍了我们的语块描述体系。第3节介绍了我们的语块库构建工作。第4节进一步分析了语块与论元结构的关系以及语块与韵律结构的关系等。最后的第5节展望了在现有的语块库上可以进一步进行的一些句法分析和知识获取研究设想。2语块描述体系Abney(1991)最早提出了一个完整的语块描述体系[5]。他把语块定义为句子中一组相邻的属于同一个s-投射(s-projection)的词语的集合,建立了语块与管辖约束(GB)理论的X-bar系统的内在联系,从而奠定了这个

7、语块描述体系的比较坚实的理论基础。在此前后,一些应用系统的研究重点则主要集中在名词短语的识别上,其中包括基本名词短语(BaseNP)([6],[7])和最长名词短语(MNP)([8],[9])。在其他语块或基本短语方面的研究则比较少。最近比较完整的工作是Buchholz&al.(1999)。他们探索了NP,VP,PP和ADJP等基本短语的自动识别方法。另外,Veenstra(1999)也识别了NP,VP和PP块。他们的研究为CONLL-2000提出的语块共享研究计划打下了基础。去

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。