欢迎来到天天文库
浏览记录
ID:36672533
大小:1.34 MB
页数:56页
时间:2019-05-13
《基于半监督学习的中文依存句法分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于半监督学习的中文依存句法分析SEMI-SUPERVISEDLEARNINGONCHINESEDEPENDENCYPARSING吴志君哈尔滨工业大学2012年12月国内图书分类号:TP391.1学校代码:10213国际图书分类号:621.3密级:公开工学硕士学位论文基于半监督学习的中文依存句法分析硕士研究生:吴志君导师:王轩教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2012年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.1U.D.C:621.3
2、DissertationfortheMasterDegreeofEngineeringSEMI-SUPERVISEDLEARNINGONCHINESEDEPENDENCYPARSINGCandidate:ZhijunWuSupervisor:Prof.XuanWangAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScience&TechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:D
3、ecember,2012Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学全日制工学硕士学位论文摘要依存关系指的是句子中词与词之间支配与被支配的关系,将这种关系以计算机可接受的方式表示出来就是一个有向的依存结构图。依存关系因其直观、容易理解和简洁的结构,使得依存句法分析成为目前句法分析领域中的重要的研究方向之一。传统的句法分析的首要任务是确定句子所包含的结构,其次是确定各部分之间的内在联系,而依存句法分析的主要目的就是通过分析句子中各词之间的依存
4、关系来识别句子的句法结构。随着计算机技术的不断发展,大规模收集语料成为可能,一些主流的语言如英文已经建立起了规模很大的语料库,并用统计的方法让计算机来处理成为可能。但是就目前来说,收集完之后的语料库需要人工的对其词性和依存关系进行标注,这将耗费大量的人力、物力和财力。对于中文的依存语料库来说,目前已建成的汉语依存树库规模很小,而且由于没有统一的标注规范,使得各研究组织机构的语料库之间存在着很大的差异。课题考虑到中文依存语料库规模较小的不足之处,利用大量的未标记语料,设计并实现了一种基于改进的Tri-training算法的半
5、监督学习方法,并取得了较好的性能。实验采用的语料全部来自于CoNLL-2009的中文评测数据,其中共有22276个语句,利用基于两种不同方法的句法分析器MSTParser和MaltParser训练得到三种类型的分类器模型来实现改进的Tri-training算法。最初的Tri-training算法的过程过于繁琐,且其迭代的过程十分耗时。本文改进了Tri-training算法的时间复杂度,并且使用三种算法对同一标记数据进行训练。本实验根据汉语词和词形相同的特征,改进了MSTParser和MaltParser训练过程特征向量的选
6、取维数,同时增加了三阶的特征向量。实验结果表明,利用大量的未标记的句子对实验结果的提高作用明显,克服了因依存语料库不足所带来的问题。关键词:依存句法分析;依存树;语料库;半监督学习;分类器I哈尔滨工业大学工学硕士学位论文ABSTRACTDependencyisarelationshipbetweentwophraseswhodominatetheotherinasentence.Abetterwaytorepresentdependencyrelationshipincomputeriscalleddirecteddepe
7、ndencygraph.Dependencyparsingbecomesanimportantpartofsyntacticparsingduetoitsintuitive,easytounderstandandsimplestructure.Syntacticparsinghastwogoals.Theoneistodeterminethestructureofasentenceandtheotheristofindtherelationshipofeachcomponent.Themainpurposeofdepend
8、encyparsingistoidentifythesyntacticstructureofasentencethroughanalyzingthedependencyrelationshipbetweenphrases.Withtherapiddevelopmentofcomputersciencea
此文档下载收益归作者所有