面向信息处理的词汇语义研究中的若干问题

面向信息处理的词汇语义研究中的若干问题

ID:32419235

大小:166.15 KB

页数:5页

时间:2019-02-04

面向信息处理的词汇语义研究中的若干问题_第1页
面向信息处理的词汇语义研究中的若干问题_第2页
面向信息处理的词汇语义研究中的若干问题_第3页
面向信息处理的词汇语义研究中的若干问题_第4页
面向信息处理的词汇语义研究中的若干问题_第5页
资源描述:

《面向信息处理的词汇语义研究中的若干问题》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、面向信息处理的词汇语义研究中的若干问题董振东董强(载于《语言文字应用》2001年第三期,pp.27-32)提要本文概述了国家社会科学“九五”重大项目“信息处理用现代汉语词汇研究”中的子课题“现代汉语知识词典的建立和词汇内部语义网络描述”取得的成果,着重讨论了在研究过程中曾面临的一些策略性和方法论的问题。笔者把它们归纳为五个关系:知识获取和表达的深与浅的关系、语义知识和世界知识的关系、分类和属性标注的关系、知识的自动获取和人工获取的关系、知识体系的完备性与实用性检验的关系。SomeProblemsinStudyofIT-orientedLexicalSemanticsZhendongDong

2、QiangDongAbstractThispaperoutlinestheachievementsinthestudyof“constructionofaknowledgedictionaryofcontemporaryChineseanddescriptionofsemanticstructureofwords”,asub-projectinthe9thfive-yearplanprogram“modernChineseVocabularystudiesinChineseinformationprocessing”.Thepaperdiscussessomeproblemsofresea

3、rchstrategyandmethodology.Theyare(1)thedepthinknowledgeacquisitionandrepresentation,(2)semanticknowledgeandworldknowledge,(3)classificationandsemanticfeaturetagging,(4)automaticacquisitionandhumanacquisitionofknowledge,(5)completenessofaknowledgesystemandevaluationinitsapplication.笔者于1998年开始承担国家社会

4、科学“九五”重大项目“信息处理用现代汉语词汇研究”中的子课题–现代汉语知识词典的建立和词汇内部语义网络描述,这给笔者一个涉足当前研究热点的好机会。这项研究包括两个部分:第一,分析和提取语言的意义的最基本的元素,即义原。该子课题负责人董振东在1988年提出,利用中文词语的意义结构的特点,将是分析和提取义素的最好、最方便的方法。然后利用提取的义原来建立面向信息处理的《汉语知识词典》,这样做也是对于义原的检验。本项研究提取了1503个义原,以及71个词语间的动态角色关系和动态属性。迄今为止,研究者用它们来标注中文和英文各70000个词语,证明这些义原以及动态角色关系和动态属性是正确的、可靠的、有

5、生命力的,从而建立了《汉语知识词典》。该词典目前被公认为规模最大、收录词语最多且最新、为词语提供的信息内容最丰富的,面向信息处理的汉语知识词典。能够这样完整地系统地提取义原,并加以科学地利用,建立如此规模的知识词典,是革命性的。第二,在上述义原以及动态角色关系和动态属性的基础上,探索中文结构的构造模式。在经过大量的实际语言素材的调查研究,并得到了香港科技大学研究项目HKUST6149/98E的支持之后,研究从原来拟定的局限于词语内部语义关系扩展到更大范围的短语,原来拟定的局限于语义关系被更深的信息结构关系所取代.迄今为止得到了271个结构模式,从而建立了一个《中文信息结构库》,它包含110

6、00个词语的实例。边研究,边应用是本项研究的的一个突出的特点。得到应用和推广是研究成就的最好证明。迄今为止采用《汉语知识词典》和《中文信息结构库》的机构已有中港台三地、新加坡、美国、加拿大等多个大学和科研机构。应用可分为三类:一是基于《汉语知识词典》和《中文信息结构库》文本语义关系的标注,如香港科技大学的研究;二是对《汉语知识词典》和《中文信息结构库》的学习和研究,如台湾中央研究院资讯所、新加坡南洋理工大学、美国马里兰大学等;三是基于《汉语知识词典》和《中文信息结构库》的应用技术,如句法结构或语义排歧,信息过滤、智能检索中的自然语言接口等。鉴于上述,本项研究获得了学术界很高的评价。香港科技

7、大学颜国伟博士指出:“它的理论基础:知网的知识表达模式是针对计算机的信息处理特点而制定的,理论水平超过面向人而设的WordNet。提供一直接处理语义,绕过汉语语法分析的门径。经过两年的研究证实,词汇内部的语义网络描述适用于词汇之间的语义关系描述。由小观大,对词汇内部语义关系的把握直接可以取得对句子意义的理解。这是此研究最具慧识之处,对突破目前自然语言理解的瓶颈影响深远。”这段时间以来,我们的用户和读者积极地参与论坛,经常

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。