欢迎来到天天文库
浏览记录
ID:36656167
大小:1.18 MB
页数:138页
时间:2019-05-13
《基于统计方法的汉语依存句法分析研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、工学博士学位论文基于统计方法的汉语依存句法分析研究ResearchonChineseDependencyParsingBasedonStatisticalMethods马金山哈尔滨工业大学2007年12月国内图书分类号:TP391.2国际图书分类号:681.37工学博士学位论文基于统计方法的汉语依存句法分析研究博士研究生:马金山导师:李生教授副导师:刘挺教授申请学位级别:工学博士学科、专业:计算机应用技术所在单位:计算机科学与技术学院答辩日期:2007年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.2U.D.C.:681.
2、37ADissertationfortheDegreeofD.EngResearchonChineseDependencyParsingBasedonStatisticalMethodsCandidate:MaJinshanSupervisor:Prof.LiShengAssociateSupervisor:Prof.LiuTingAcademicDegreeAppliedfor:DoctorofEngineeringSpecialty:ComputerApplicationTechnologyAffiliationSchoolofComputerSci
3、enceandTechnologyDateofOralExamination:December,2007University:HarbinInstituteofTechnology摘要摘要句法分析的任务是根据给定的语法,自动推导出句子的语法结构。句法分析性能的提高将对信息检索、信息抽取以及机器翻译等应用产生重要的推动作用。在句法分析的研究中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视。目前,已经被自然语言处理领域的许多专家和学者所采用,应用于多种语言之中。但由于语料资源以及技术等原因,汉语在依存句法分析方面的相关研究并不多。为
4、了弥补这方面的不足,本文使用基于语料库的统计学习方法,对汉语的依存句法分析技术进行了探索。本文的工作分五个部分,具体内容如下:1.实现了一个包含分词和词性标注的词法分析系统,并增加了动词子类标注的功能。区分动词的语法属性是为了减少由动词引起的语法歧义,降低句法结构的复杂度。本文首先制定了一个动词细分类体系,将动词分为8个子类,然后使用最大熵的方法对动词进行子类标注,用以改善句法分析的性能。2.名词复合短语是各种语言中的普遍存在的一种语法结构,对信息抽取、机器翻译等应用有很大的影响。由于传统的句法分析对此类结构的处理不够理想,本文对名词复合短语进行专门处理
5、,以降低句法分析的难度。针对汉语名词复合短语的特点,本文提出一种基于隐马尔科夫树模型的名词复合短语分析方法,较好地解决了此类短语对句法分析的影响。3.句法分析对句子的长度非常敏感,随着长度的增加,句法分析的效率以及准确率均会受到严重的影响。为了减少句子长度的影响,本文对句子片段进行识别。先将句子划分为多个片断,并使用基于支持向量机的方法对每个片断类型进行识别;然后对片段进行依存分析,再识别出各片断之间的依存关系,最后将各个片断组合为一个完整的分析树。4.根据汉语的特点,探索了一个高效的汉语依存句法分析算法。针对汉语语法结构灵活、树库资源不是非常充分的情况
6、,本文使用分治策略对句子中的一些特定语法结构进行预处理。在搜索算法上,使用动态局部优化的确定性分析算法对句子进行解码,提高了搜索的效率。5.为了检验汉语依存句法分析方法的扩展性,并探索单语依存分析同多─I─哈尔滨工业大学工学博士学位论文语依存分析的不同之处,本文实现了一个基于分步策略的多语依存分析系统,并在CoNLL2006的数据集上进行了实验。通过对实验结果的分析以及同评测结果的比较,验证了本文方法的有效性。关键词汉语句法分析;依存语法;名词复合短语;动态局部优化;多语依存分析─II─AbstractAbstractThegoalofparsingis
7、toderivethesyntacticstructuresofsentenceaccordingtoacertaingrammar.Theimprovementofparsingwillgiveanenormousimpetustonaturallanguageprocessingapplicationssuchasinformationretrieval,informationextractionandmachinetranslation.Thestatisticalparsingcommunityhasbeguntoreachoutfordepen
8、dencygrammarthatiseasytounderstand,annot
此文档下载收益归作者所有