资源描述:
《[请在这里输入文档标题]》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、JournalofChineseLanguageandComputing,13(2)159-176159∗现代汉语语义词典规格说明书121王惠詹卫东俞士汶1北京大学计算语言学研究所2北京大学中文系whui@pku.edu.cn;yusw@pku.edu.cn;zwd@pku.edu.cnSubmittedon8March,2003,RevisedandAcceptedon16May,2003摘要“现代汉语语义词典”(SKCC)是一部面向自然语言信息处理的语义知识库,它以数据库文件形式收录了6.6万余条汉语实词,不仅给出了每个词语所属的词类、语义类,
2、而且以义项为单位详细描述了它们的配价信息和多种语义组合限制,可以为包括机器翻译在内的多种中文信息处理系统中的语义自动分析提供强有力的支持,同时,对于汉语词汇语义学和计算词典学研究也具有重要的意义。本文概要介绍这部语义词典的结构、内容,以及语义属性项目的填写规范。关键词语义知识库,语义类,配价信息,计算词典学,中文信息处理1.引言随着语言处理技术的迅速发展,词义分析的重要性与迫切性也越来越突出。为了获取足够的词义知识,克服目前普遍存在的“词义瓶颈”难题,从80年代中期开始,世界上许多国家都大力投资开发机用语义词典,如:美国的Wordnet(Fellb
3、aum,1998)、Mindnet(Richardson,1998)、Framenet(Fillmore,1998)、日本的EDR概念词典、新加∗本文有关研究得到了973项目(G1998030507-4,G1998030507-1)和863项目(2002AA117010-08)的支持。160HuiWang,WeidongZhan,ShiwenYu坡的SenseWeb等。中国也陆续开展了汉语语义词典的研究与开发,如“905”项目“信息处理用汉语语义词典”(陈力为,袁琦,1995)、“现代汉语述语动词机器词典”、“知网(Hownet)”(董振东,199
4、9)、“中文概念辞书(CCD)”(于江生,俞士汶,2002)等。此外,不少计算语言学家还尝试着从机器词典中自动抽取词义知识(Chodorow1985,Ide1993,黄居仁1998等)。但迄今为止,现有的规模较大的词义工程,基本上都是采用词义分类的办法,有些再加上为数不多的属性描述。而国内外研究工作者建立义类体系的方法,也基本上都是对词义进行静态的聚合分类,并没有把词义放到一定的组合框架中去观察,所以,在自然语言处理系统中起的作用是有限的。为了给计算机自动分析提供更全面、深入的语义信息,我们应充分吸收现有的研究成果,在语法知识库的基础上构建语义知识
5、库。不仅要进行系统的语义分类,而且对词义组合信息加以全面描述,进一步加强动态的语义组合知识的研究和总结,建立一个与语言工程应用紧密配合的、合理的语义知识描述框架。北京大学计算语言学研究所与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就着手研制面向汉英机器翻译的“现代汉语语义词典”(SKCC)。1996年至1998年,双方共同承担了国家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”课题,作为该课题的一个重要组成部分,“现代汉语语义词典”进入到大规模开发阶段,并取得阶段性成果,完成了4.9万汉语名词、动词、形容词及成语、习
6、用语的语义分类和搭配信息描述(王惠等,1998)。IBM、Intel、Fujitsu,Toshiba,NTT,Canon,Sail-labs等20多家公司与大学从北大购买了该词典的许可使用权。4年多来,北京大学计算语言学研究所在积极应用、推广该词典的同时,仍不断地投入力量进行词典本身的发展。从2001年11月开始,“现代汉语语义词典”的二期开发工作受到了国家973重点基础研究项目“面向新闻领域的汉英机器翻译系统”和“面向中文信息处理的现代汉语动词论旨结构系统和汉语词语语义分类层级系统研究”的支持,由北大计算语言学研究所和中文系联合承担,对词典规模进
7、行较大幅度的扩充,并对全部词语的语义分类及属性描述进行全面修订。在双方的积极努力下,项目进展得非常顺利。目前,词典规模已达到6.6万余词条,同时语义属性描写质量有了显著提高。在一个汉英机器翻译系统中的实际应用表明,新版的SKCC可以为句义分析、词汇歧义消解提供更全面的语义知识,有效地提高了机器翻译的精度。2.现代汉语语义词典的内容概要2.1规模与结构语义词典SKCC二期工程及时吸收了语法信息词典的最新成果(俞士汶等,2003),对原有的“词语”、“词类”、“同形”、“拼音”、“兼类”、“备注”等字段进行了统一检查、TheSpecificationo
8、fTheSemanticKnowledge-baseofContemporaryChinese161修订,而且增加了14,