大型词典编纂的计算机辅助开发与管理系统

大型词典编纂的计算机辅助开发与管理系统

ID:15604906

大小:237.00 KB

页数:10页

时间:2018-08-04

大型词典编纂的计算机辅助开发与管理系统_第1页
大型词典编纂的计算机辅助开发与管理系统_第2页
大型词典编纂的计算机辅助开发与管理系统_第3页
大型词典编纂的计算机辅助开发与管理系统_第4页
大型词典编纂的计算机辅助开发与管理系统_第5页
资源描述:

《大型词典编纂的计算机辅助开发与管理系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大型词典编纂的计算机辅助开发与管理系统§本研究得到国家863项目“语言资源建设及相关研究探索”(项目号:2002AA117010-08)与国家973重点基础研究项目“面向新闻领域的汉英机器翻译系统”(项目号:G1998030507-4)的支持。王惠李康年摘要:词典编纂是一项需要投入大量人力、物力、财力的大型语言工程。由于词典包含的信息量巨大,开发周期长,编纂人员多,工程项目所要求的进度与词典的质量保证都是非常关键的问题。为此,我们设计并实现了一个词典编纂的计算机辅助开发与管理系统。该系统已经在北京大学“现代汉语语义词典”的开发过程中发挥了重要作用,它有效地提高了词典编纂的效率和质

2、量;同时,该项研究也是对汉语计算词典学理论的一种有益探索。关键词:词典编纂词典管理知识挖掘自动翻译计算词典学1.前言随着自然语言处理技术的迅速发展,词义分析的重要性与迫切性也为越来越突出。为了给计算机自动分析提供更全面、深入的语义信息,北京大学计算语言学研究所与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就着手研制面向汉英机器翻译的“现代汉语语义词典”。1996年至1998年,受到国家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”的支持,语义词典进入到大规模开发阶段,并取得重要的阶段性成果,完成了4.9万汉语词语的语义分类和搭配信息描述[1]。四年多

3、来,北京大学计算语言学研究所在积极应用、推广该词典的同时,仍不断地投入力量进行词典本身的发展。从2001年11月开始,“现代汉语语义词典”的二期开发工作受到了国家973重点基础研究项目(G1998030507-4、G1998030507-1)的支持,由北大计算语言学研究所和中文系联合承担,对词典规模进行较大幅度的扩充,并对全部词语的语义分类及属性描述进行全面修订。在双方的积极努力下,项目进展得非常顺利。10目前,现代汉语语义词典的规模与质量都有了显著的提高,共收录词条6.6万,采用Access数据库实现。其中包含全部词语的总库1个,每类词语各建一库,计11个。每个库文件都详细刻画

4、了词语及其语义属性的二维关系。比如,总库中包括词语、拼音、同形、义项、语义类、词类、子类、兼类8个属性字段。名词库设15个属性字段,动词库设16个属性字段。所有的库都可以通过“词语、词类、同形、义项”这4个关键字段进行链接[2]。现在,它正在一个汉英机器翻译系统中发挥着重要的作用。在语义词典的编纂修订过程中,为了保证词典内容准确可靠,有效地管理编纂人员,同时兼顾工程进度,我们开发了一个计算机辅助词典开发和管理系统,用于词典编辑、校订、检索、排序、检测、自动翻译、版本比较、任务管理等。本系统在Windows2000的操作系统下使用VisualC++6.0编写、运行,采用Access

5、2000数据库存储词典数据库。系统的构成主要包括以下4个子系统:词典编辑、自动检测、自动翻译、项目管理。2.词典编辑(Dict_Edit)本子系统的主要任务是对数据库格式的词典文件进行编辑(图1)。首先,选中“编辑”菜单中的“排序”,可采用多种方式对词典进行排序和浏览。10图1语义词典的形容词在“查看”菜单中点击“查询”按钮,即可根据首字、尾字、词类、语义类、义项、配价数等多种条件进行检索,包括组合检索、模糊检索等。比如,选取条件“词语=悲*”,以“悲”字开头的形容词及属性就都会显示出来(图2):图2首字为“悲”形容词这时,用鼠标左键双击一个词条,比如“悲愁”,即出现图3的编辑界

6、面,在此可填写或修改词语的各种属性值,也可在词库中添加、插入、删除词条。10图3词典编辑工具为了提高工作效率和一致性,机器能做到的事情我们尽量让机器去做。比如,形容词“配价数”的取值范围仅限于“1”或“2”,因此,该字段就采用下拉菜单方式加以选择,这样可以有效地防止填入任何非法的值。语义类划分是一件非常重要而繁琐的工作。该系统把语义分类树集中显示在窗口的左侧,编辑人员填写“悲愁”的语义类时,仅需选中“形容词语义树”中“人性值”下的“境况”类,双击鼠标左键即可自动填入。与此类似,“主体”字段的取值主要是名词的语义类,因此,点击“名词语义树”中相应节点就能完成。这大大减轻了人的记忆负

7、担,同时也最大限度地减少了可能有的手工录入错误,为高质量地完成语义词典提高了可靠的技术保障。3.自动检测(Dict_Check)在词典编纂中,多角度地检查是非常必要的,它直接关系到词典质量。以前,这些工作主要依靠审校人员完成,花费大量的人力和时间不说,漏查、错查、标准不一等现象也时有发生,词典质量难以保证。但利用计算机来处理这些任务,则有无可比拟的优越性[3]。本系统采用以下两种辅助检测手段,在效10地保证了语义词典属性填写的正确性与一致性。具体检测步骤如下:3.1对词典属性值的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。