现代汉语语法信息词典的开发与应用

现代汉语语法信息词典的开发与应用

ID:17622611

大小:109.00 KB

页数:9页

时间:2018-09-03

现代汉语语法信息词典的开发与应用_第1页
现代汉语语法信息词典的开发与应用_第2页
现代汉语语法信息词典的开发与应用_第3页
现代汉语语法信息词典的开发与应用_第4页
现代汉语语法信息词典的开发与应用_第5页
资源描述:

《现代汉语语法信息词典的开发与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、现代汉语语法信息词典的开发与应用*本项研究得到中国八五攻关项目与国家自然科学基金的支持 朱学锋俞士汶王惠 【摘要】现代汉语语法信息词典是为计算机实现汉语句子的自动分析与自动生成开发的一部机器词典,它以数据库文件形式收录了5万多条现代汉语的词语,不仅给出了每个词语所属的词类,而且详细描述了它们的各种语法属性。本文介绍这部语法词典的开发历程、内容概要和设计思想,并且举例说明在自然语言处理系统中如何应用这部语法词典。 关键词:现代汉语、语法信息词典、机器词典、自然语言处理 TheDevelopmentofContemporaryChineseGrammaticalKnowl

2、edgeBaseanditsApplicationsZHUXuefengYUShiwenWANGHuiInstituteofComputationalLinguistics,PekingUniversityBeijing100871,P.R.CPhone:2501892AbstractTheContemporaryChineseGrammaticalKnowledgeBaseisamachinedictionary,whichisdevelopedforautomaticanalysisandgenerationofChinesesentences.Therearea

3、bout50,000Chinesewordsandidiomsintheknowledgebaserepresentedbydatabasefiles.Theknowledgebasenotonlygivespartofspeechforeachwordoridiom,butalsodescribestheirvariousgrammaticalattributes.Thepaperintroducesthedesign,thedevelopmentandtheoutlineoftheknowledgebaseandshowsitsapplicationsinnatu

4、rallanguageprocessingsystemswithexamples. Keywods:contemporaryChinese,grammaticalknowledgebase,machinedictionary,naturallanguageprocessing 1.现代汉语语法信息词典的开发历程十年前,中文输入技术的主流还是汉字编码,以词为单位进行输入也只是汉字输入的陪衬。北大计算语言学研究所在1986年提出了一个语法规则制导的以语句为单位的中文输入方案,并在一年多的时间内实现了。参考文献[1]深入浅出地介绍了这个方案的原理与实现技术。这个方法中就包含

5、了一部电子词典,除了词条及每个词的检索特征(拼音、起笔、末笔等)外,还包括词类及细分的子类。这部词典成为现代汉语语法信息词典的基础。作为中国七五攻关项目“自然语言理解与人机接口”中的一个子专题,俞士汶于1987年提出了开发“现代汉语词语语法信息库”的计划[2],把研究重点放在词语语法属性的描述上。恰逢此时,中国著名语言学家朱德熙先生承担了全国社会科学规划领导小组下达的“现代汉语词类研究”的攻关项目。从此,北大计算语言学研究所与中文系的研究者们在朱德熙先生的率领下开始了联合攻关,并结成了稳定的合作关系。1990年,“现代汉语词语语法信息库”取得了阶段性成果,通过技术鉴定

6、。在讨论八五攻关项目时,以中国工程院院士、中国中文信息学会理事长陈力为教授为代表的中国一批自然语言处理技术专家敏锐地觉察到,为了中文信息处理技术的发展,特别是语言信息处理技术的发展,有必要建立通用的应用开发平台[3][4]。这个大型语言工程将现代汉语语法信息词典(以下有时简称为“语法词典”)列为它的一个子专题。从1991年起北大计算语言学研究所承担了这个子专题的研制任务。本项研究继承了“现代汉语词语语法信息库”的成果,又经过5年的努力,现在本项研究已完成如下任务:(1)制订了现代汉语语法信息词典的规格说明书与开发方略[5];(2)建立了面向信息处理的现代汉语词语分类体

7、系并完成了关于这个分类体系的研究报告[6];(3)明确了词语的收录范围与选词原则[7];(4)探讨了某些词类的子类划分[8];(5)语法词典本身的开发,这当然是最繁重、最艰巨的任务。到目前为止,语法词典收录的词语总数为5万多条,并且将这5万多词都归了类,按照规格说明书填入了语法属性信息,其中百分之七十经过了仔细的、多遍的、不同角度的校对。按照应用开发平台工程总体组的布署,北大已将语法词典的部分内容提交给其他子专题开发组使用。最近,负责句法规则的研究者告知,语法词典对句法分析提供的语法知识是有价值的,也是相当充分的。对于开发者来说,这当然是莫大的安慰与

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。