欢迎来到天天文库
浏览记录
ID:33301748
大小:2.39 MB
页数:68页
时间:2019-02-23
《中文成分句法分析关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据分类号UDC作者姓名:指导教师:申请学位级别:学科专业名称:论文提交日期:学位授予日期:评阅人:密级学位论文中文成分句法分析关键技术研究刘卓张俐副教授东北大学信息科学与工程学院硕士学科类别:专业学位计算机技术2014年6月论文答辩日期:2014年6月2014年7月答辩委员会主席:杨晓春胡明涵、战学刚东北大学2014年6月万方数据AThesisinComputerTechnologyStudyonChineseConstituentParsingByLiuZhuoSupervisor:Associat
2、eProfessorZhangLiNortheasternUniversityJune2014万方数据独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。学位论文作者签名:匀努\日期:加,午午6目学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权
3、保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年囱一年口一年半口两年口学位论文作者签名:鹚每签字日期:加f乍斗6『9I导师签名:签字日期:飘加,争肇扫’同万方数据东北大学硕士学位论文摘要中文成分句法分析关键技术研究摘要成分句法分析(又被称作短语结构句法分析)是自然语言处理的核心任务之一,被广泛应用于包括统计机器翻译(StatisticalMachineTran
4、slation)、语义角色标注(SemanticRoleLabeling)、问答系统(QuestionAnswering)、信息抽取(InformationExtraction)在内的多种自然语言处理任务。由于人工标注句法数据(在句法分析领域,这类数据的集合通常被称作树库)的出现,数据驱动的句法分析方法成为当前句法分析研究的主流方法。但主流的成分句法分析器虽然能获得较好的性能,它们的速度却是非常慢的,这些速度较慢的句法分析模型不能满足实际应用的需求。为此,本文研究并构建了一个高效的中文成分句法分析模型,该模
5、型基于移进.规约算法,其主要的优势在于其能够快速的进行句法分析,同时保证较好的性能,此外,本文还在基准系统的基础上对模型进行了几点改进。本文的主要内容如下:首先,研究并构建了中文成分句法分析基准系统。系统基于移进.规约算法,它是一个自底向上的句法分析算法,将成分句法分析过程转化成一个最优动作序列的搜索过程。该算法是一个线性的算法,所以能够高效率的完成句法分析任务。在训练过程中选择感知机模型,对算法进行建模,在解码模块使用柱搜索技术,既保证了算法的线性时间复杂度,又提高了算法的准确性。本文之后的研究以及改进的
6、方法都将在这个基准系统上展开。其次,研究了提高中文成分句法分析性能的方法。通过对基准系统实验结果的分析提出了两种方法来改进分析模型:第一种是通过使用更丰富的句法分析特征来改进句法分析模型;另一种是使用基于半指导的方法,扩大训练集规模,提高句法分析动作判断的准确率,改进基准系统的性能。本文的贡献度主要表现在:研究并构建了一个高效的成分句法分析系统,在实验中可以达到每秒80句以上的分析速度。提出了两种改进句法分析模型的方法,并通过验证了这两种方法对句法分析性能的改进作用。最终的实验表明,本文提出的方法能够有效的
7、改进成分句法分析模型的性能。在使用宾州大学中文树库标准测试集的条件下,算法获得的最高F1值为84.55%。关键词:自然语言处理;成分句法分析;移进.规约;感知机模型;柱搜索;半指导.II.万方数据东北大学硕士学位论文摘要..III..万方数据StudyonChineseConstituentParsingAbstractConstituentparsing(alsoknownasphrase—structureparsing)isoneofthecoretasksofnaturallanguageproce
8、ssing,whichisoftenusedinmanyotherniptasks,suchasStatisticalMachineTranslation,SemanticRoleLabeling,QuestionAnsweringandInformationExtraction.Sincethereleaseofhuman-labeledcorpus(calledtreebankinparsing),data-
此文档下载收益归作者所有