欢迎来到天天文库
浏览记录
ID:34832177
大小:756.93 KB
页数:61页
时间:2019-03-12
《浅论互联网人物信息排歧技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、工学硕士学位论文互联网人物信息排歧技术研究RESEARCHOFDISAMBIGUATIONOFINTERNETPEOPLEINFORMATIONTECHNOLOGY马二磊哈尔滨工业大学2010年6月国内图书分类号:TP391.3学校代码:10213国际图书分类号:681.37密级:公开工学硕士学位论文互联网人物信息排歧技术研究硕士研究生:马二磊导师:刘远超副教授申请学位级别:工学硕士学科、专业:计算机科学与技术所在单位:计算机科学与技术学院答辩时间:2010年6月授予学位单位:哈尔滨工业大学Clas
2、sifiedIndex:TP391.3U.D.C.:681.37DissertationfortheMasterDegreeinEngineeringRESEARCHOFDISAMBIGUATIONOFINTERNETPEOPLEINFORMATIONTECHNOLOGYCandidate:ErleiMaSupervisor:AssociateProf.YuanchaoLiuAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerS
3、cienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2010Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着Internet及其相关技术的飞速发展,WWW已成为最大的信息集散地。无论对企业还是个人,Web逐渐成为最主要的信息来源。然而由于网站数量过多以及由此带来的信息泛滥,使得有
4、用信息的获取越来越困难,搜索引擎只能提供信息的查找范围,而具体的内容还要靠详细搜查。在人物信息查询的时候,返回的信息比较庞大,还有太多的重复,并且信息准确度不高。为此,建立人物信息排歧系统,目的在于使用户更快、更方便的得到所需信息,并且最终结果简单、精炼、美观。本文利用不同的人物处于不同的领域这个特性,将人物文档信息分为文娱、行政、军事、科教、体育、医疗、经济等七个类别,避免了不同领域人物之间的信息处理,提高了系统的效率,并且根据这种方法进行预分类,召回率很高,确保了不同领域人物信息不会进行交叉,从
5、而减少了在后续的处理中不同领域人物信息聚为一类的错误。本文实现了利用社会网络和上下文信息进行结合的人物排歧处理。单用社会网络或者是上下文信息都不能很好的进行人物信息排歧,用社会网络会出现通篇只有一个人名或者其社会网络非常小等情况,不能很好的进行聚类处理,用上下文信息,文档中的上下文有时不能很好的说明人物特性,处理效果不是很好,利用两种方法相结合能很好的提高系统的准确率和召回率。利用社会网络对人物信息进行聚类,准确率高,但是召回率低,这时利用上下文信息进行再处理,进而提高了召回率,从而确保较高的准确率
6、和召回率。人物信息处理系统是通过人名检索,利用网络爬虫爬取网页,进而利用人物领域信息进行预分类,利用社会网络和上下文信息进行聚类,最终在系统界面进行显示不同人物实体所对应的网络信息的一个检索系统。关键词:排歧;社会网络;领域分类;社会属性;特征库-I-哈尔滨工业大学工学硕士学位论文AbstractWiththedevelopmentofInternetanditsrelativetechnology,theWWWhasbecomethelargestinformationarea.Fortheent
7、erpriseortheindividual,webbecomesthemaininformationsourcegradually.However,becauseoftoomanywebsitesandtheinformationoverflowresultingfromthis,itismoreandmoredifficulttoobtainusefulinformation.Whensearchingforpersoninformation,youwillgainhugeinformation
8、andtoomuchduplication,andtheaccuracyisnothigh.So,thepersoninformationextractionsystemisbuilttoallowusersfasterandmoreconvenienttoobtaintherequiredinformation,andtheresultsimple,refinedandbeautiful.Becausedifferentpeoplemaybeindifferenta
此文档下载收益归作者所有