欢迎来到天天文库
浏览记录
ID:23850495
大小:3.31 MB
页数:74页
时间:2018-11-11
《基于上位词的中文实体关系图谱构建》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于上位词的中文实体关系图谱构建BUILDINGACHINESEENTITYRELATIONGRAPHBASEDONHYPERNYM蔡鸿博哈尔滨工业大学2014年6月万方数据国内图书分类号:TP391.2学校代码:10213国际图书分类号:681.37密级:公开工程硕士学位论文基于上位词的中文实体关系图谱构建硕士研究生:蔡鸿博导师:秦兵教授申请学位:工程硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2014年6月授予学位单位:哈尔滨工业大学万方数据ClassifiedIndex:TP391.2U.D.C:68
2、1.37DissertationfortheMasterDegreeinEngineeringBUILDINGACHINESEENTITYRELATIONGRAPHBASEDONHYPERNYMCandidate:CaiHongboSupervisor:Prof.QinBingAcademicDegreeAppliedfor:MasterofEngineering Speciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDef
3、ence:June,2014Degree-Conferring-Institution:HarbinInstituteofTechnology万方数据哈尔滨工业大学工程硕士学位论文摘要随着互联网与大数据的飞速发展,如何在大规模数据中提取挖掘出有价值的信息,并将这些信息整理构建成体系已经成为目前国内外的一个重要研究课题。对于文本信息而言,建立起实体之间的关系,并进一步构建出一个庞大丰富的分类体系对解决很多搜索问题以及自然语言处理问题具有深远意义。实体是自然语言处理的基本单元,实体关系是自然语言处理的基础性课题,是很多其他自然语言处理任务
4、的基础,同时也是很多信息检索问题的基础。构建一个准确而全面的实体关系图谱具有巨大的学术意义和应用价值。本文着眼于构建一个性能优异且规模庞大的中文实体关系图谱,其中实体间的关系主要为上下位关系。本文的研究内容主要包括三方面:基于推荐算法的实体上位关系补充,基于挖掘频繁项集关联性的上位关系层次化及基于词结构信息的上位关系层次化。本文使用挖掘频繁项集关联性与分析词结构信息相结合的方法来自动挖掘上位词之间的上位关系,达到了较好的层次化效果,而且创新性的使用了推荐算法来对实体的上位词进行补充。层次化效果具有很高的准确率,使得大量的实体达到了自动
5、分类的效果。对于每种方法,本文都进行了严密的推理和假设,就具体问题进行深入分析并提供合适有效的解决方案。在挖掘频繁项集关联性的过程中,本文使用了Apriori算法,并针对实际问题对其进行了改进。在分析词结构信息的过程中,我们对中文独有的核心词特性,设计了对应的算法方案。实验结果表明,本文的中文实体关系库在性能上达到了可以应用的程度,而且随着用户使用该系统次数的增加,上位关系的规模和质量也会进一步提高。实验中也采用了高效的辅助算法与数据结构进行优化,使得整个系统的效率进一步提高。关键词实体关系图谱;上位词;上位词层次化;推荐算法-I-万
6、方数据哈尔滨工业大学工程硕士学位论文AbstractWiththerapiddevelopmentoftheInternetandbigdata,howtoextract valuableinformationtodigoutlarge-scaledata,andcollatethisinformationto constructthesystemhasbecomeanimportantresearchtopicathomeandabroad. Fortextmessages,theestablishedrelationshipsbe
7、tweenentities,andfurtherbuilda hugewealthoftheclassificationsystemhasfar-reachingsignificanceforsolving searchproblems,andmanynaturallanguageprocessingproblems.Entityisthebasicunitofnaturallanguageprocessing,entity-relationshipis thefoundationofnaturallanguageprocessing
8、issues,isthebasisofmanyother naturallanguageprocessingtasks,butalsothebasisofmanyinformationretrieval problems
此文档下载收益归作者所有