欢迎来到天天文库
浏览记录
ID:153643
大小:749.50 KB
页数:61页
时间:2017-06-28
《词义排歧的提出及其意义毕业论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、大连理工大学硕士学位论文词义排歧的提出及其意义毕业论文目 录摘 要IAbstractII引 言11问题描述31.1词义排歧的提出及其意义31.1.1词义排歧31.1.2词义排歧研究的意义41.2国内外的研究状况51.2.1有指导排歧方法51.2.2基于词典的排歧方法91.2.3无指导的排歧方法101.3面临的主要问题111.3.1上下文选择111.3.2词义的划分121.4词义排歧的评测方法121.5本文的工作122面向WSD的AdaBoost.MH算法模型142.1基本概念142.2AdaBoost.MH算法简介152.2.1Ada
2、Boost算法背景152.2.2AdaBoost算法基本思想162.2.3算法误差的分析182.2.4多类分类问题202.2.5AdaBoost算法的优缺点20-57-大连理工大学硕士学位论文2.3面向WSD的AdaBoost.MH算法描述212.4弱学习器的设计及的选取223上下文特征的选择253.1相邻词的词性标注(POS)253.2局部搭配信息263.3语义范畴信息263.3.1《同义词词林》简介263.3.2对《同义词词林》中未登录词的处理283.3.3语义范畴信息的选取294汉语AdaBoost.MH--WSD实验304.1语
3、料库304.1.1人民日报语料304.1.2SENSEVAL3中文语料304.2实验评测及结果314.2.1人民日报语料实验结果与评测324.2.2SENSEVAL3中文语料实验结果与评测324.3算法中迭代次数的确定344.4语义信息的引入对排歧效果的影响354.4.1人民日报语料实验354.4.2SENSEVAL3中文语料实验365自动建立带标注的语料库的方法385.1自动构建标注语料库的模型385.1.1搜索关键字的建立395.1.2语料库的建立和修剪405.2语料库可用性的评测实验与分析425.2.1语料库425.2.2语料库中
4、搜索到的新搭配425.2.3上下文特征的选取42-57-大连理工大学硕士学位论文5.2.4实验结果及评测42结 论45参考文献46附录ASENSEVAL3中文语料示例49附录B标注语义范畴信息的语料示例51附录C《同义词词林》语义信息示例53附录D《同义词词林扩展版》语义信息示例54攻读硕士学位期间发表学术论文情况55致 谢56大连理工大学学位论文版权使用授权书57-57-大连理工大学硕士学位论文引 言计算语言学(ComputationalLinguistics)是一个横跨语言学、数学和计算机科学的新兴交叉学科[1]。它通过建立形式化
5、的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的[2]。计算语言学的研究工作分为两个方面。第一,从计算的角度来研究语言的性质;第二,将语言作为计算对象来研究相应的算法。所谓从计算的角度来研究语言的性质,就是要求将人们对语言的结构规律的认识以精确的、形式化的、可计算的方式呈现出来,而不是像其他语言学研究那样,在表述语言的结构规律时一般采用非形式化的表达形式。所谓将语言作为计算对象来研究相应的算法,就是研究如何以机械的、规定了严格操作步骤的程序来处理语言对象(主要
6、是自然语言对象,当然也可以是形式语言对象),包括识别一个语言片断(比如词组、句子或篇章)中的大小语言单位,分析该语言片断的结构和意义(自然语言理解),以及如何生成一个语言片断来表达确定的意思(自然语言生成),等等。自然语言处理(NaturalLanguageProcessing)是利用计算机技术研究和处理语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。它属于计算语言学的算法部分[1],并经过如下的过程——把需要研究的语言学问题加以形式化,使之能以
7、一定的数学形式或者接近于数学的形式,严格而规整地表示出来;把这种严格而规整的数学形式表示为算法,使之在计算上形式化;根据算法编写计算机程序,使之在计算机上加以实现。自然语言处理是人工智能研究的最重要的课题之一。人类知识大都是以语言的形式表示并流传下来的,据统计,在信息领域中80%以上的信息是以语言文字为载体的。自然语言处理的重大突破,将为知识获取开辟重要来源。同时它也将触发人机接口革命。它将使计算机具有听、说、读、写的能力,人们可以用自然语言和计算机交流,这将给使用者带了极大的方便。自然语言处理系统可以用作专家系统、知识工程、情报检索、
8、办公室自动化的自然语言人机接口,有很大的实用价值。机器翻译将使人们跨越语言壁垒,让全世界的人顺利交流,让每个用户都能共享因特网的浩瀚信息和无限商机。-57-大连理工大学硕士学位论文语言是音义结合的符号系统,
此文档下载收益归作者所有