清华汉语treebank标注体系

清华汉语treebank标注体系

ID:37700007

大小:57.18 KB

页数:8页

时间:2019-05-29

清华汉语treebank标注体系_第1页
清华汉语treebank标注体系_第2页
清华汉语treebank标注体系_第3页
清华汉语treebank标注体系_第4页
清华汉语treebank标注体系_第5页
清华汉语treebank标注体系_第6页
清华汉语treebank标注体系_第7页
清华汉语treebank标注体系_第8页
资源描述:

《清华汉语treebank标注体系》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、∗汉语句法树库标注体系周强清华大学计算机系智能技术与系统国家重点实验室北京100084zhouq@s1000e.cs.tsinghua.edu.cn摘要:语料库的句法标注是语料库语言学研究的前沿课题。本文在研究和总结国内外句法树库标注实践的基础上,提出了一套汉语真实文本的句法树标注体系。它以完整的层次结构树为基础,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记,形成双标记集的句法信息描述体系。目前,这两个标记集分别包含了16和27个标记,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述。在此基础上,我们开发完成了100万词规模的汉语句法树库TC

2、T,对其中各种复杂语言现象的标注实践显示了这套标注体系具有很好的信息覆盖率和语料适应性。关键词:句法树库,标注规范,语料库语言学AnnotationSchemeforChineseTreebankZHOUQiangStateKeyLaboratoryofIntelligentTechnologyandSystemsDept.ofComputerScienceandTechnologyTsinghuaUniversity,Beijing100084zhouq@s1000e.cs.tsinghua.edu.cnABSTRACT:Thesyntacticallyannotatedco

3、rpora,commonlycalled‘treebanks’,playanimportantroleinempiricallinguisticsaswellasinmachinelearningmethodsinnaturallanguageprocessing.Afterabriefsummarizationofseveraltreebankannotationofdifferentlanguage,weproposedanewannotationschemeforChinesetreebankinthispaper.Underthisscheme,everyChinese

4、sentencewillbeannotatedwithacompleteparsetree,whereeachnon-terminalconstituentisassignedwithtwotags.Oneisthesyntacticconstituenttag,whichdescribesitsexternalfunctionalrelationwithotherconstituentsintheparsetree.Theotheristhegrammaticalrelationtag,whichdescribestheinternalstructuralrelationof

5、itssub-components.Thesetwotagsetsconsistof16and27tagsrespectively.Theyformanintegratedannotationforthesyntacticconstituentinaparsetreethroughtop-downand∗本项研究得到国家自然科学基金(项目号:69903007和60173008)、国家973基金(项目号:G1998030507,G1998030501A-03)、国家高技术研究发展863计划(项目号:2001AA114040)资助。作者:周强,男,1967年生,博士,副研究员,主要

6、研究方向:计算语言学、语料库语言学、词汇语义学1bottom-updescriptions.Basedonthisscheme,webuilta1,000,000wordsChinesetreebankcoveringabalancedcollectionofjournalistic,literary,academic,andotherdocuments.Theannotatingexperimentsondifferentkindsofcomplexlinguisticphenomenashowtheavailabilityandcompatibilityofthisanno

7、tationscheme.KEYWORDS:TreeBank,AnnotationScheme,CorpusLinguistics1引言语料库的句法标注是语料库语言学研究的前沿课题,它的处理目标是对语料文本进行句法分析和标注,形成树库(treebank)语料。近年来,国内外研究人员在这些方面进行了深入探索,开发完成了许多大规模的树库。在英语方面,有英国的Lancaster-Leeds树库[LG91]和美国的Penn树库[MSM93];德语方面,有NEGRA树库[SBK98]和TIGER树库[

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。