欢迎来到天天文库
浏览记录
ID:35139954
大小:6.91 MB
页数:75页
时间:2019-03-20
《web结构挖掘中hits算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、西南交通大学硕士学位论文Web结构挖掘中HITS算法的研究姓名:卢虹宇申请学位级别:硕士专业:计算机应用指导教师:杨燕20080330摘要自20世纪90年代以来,随着网络技术的发展,尤其是Internet的广泛应用,WWW已经成为一个巨大的,分布广泛的全球信息服务中心。如何有效的满足用户的需求,帮助用户从因特网浩如烟海的信息中发现他们所要寻找或者感兴趣的资源,己经成为一项迫切需要解决的问题。Web数据挖掘在这个背景下应运而生。Web的存在形式表明Web之间的链接包含了大量人类的潜在语意,包括Web内容的相关性,质量和结构方面的信息,它反映了页面的重要性和权威性。因此可以利用这
2、样的链接结构来找到权威页面。HITS(Hyperlink.InducedTopicSearch)算法正是利用链接结构来对Web数据进行挖掘。本文主要是关于HITS算法的研究。在所有对页面进行链接分析并提取分组的算法中,HITS算法是应用最为广泛的一种事后分析算法,目前在不少的Web结构挖掘系统中都有相关的应用。文章首先介绍了Web数据挖掘的相关知识,并重点讨论了Web结构挖掘的理论,分析了HITS算法,对其优点和不足进行了深入研究。然后分析了HITS算法的一个变种:空间向量投影法。空间向量投影法的主要理论基础是充分信任根集的权威性。与HITS算法只计算主特征向量不同,空间向量
3、投影法计算每个特征向量,然后将所有的特征向量对根集空间投影,并对投影后的向量进行比较。在前两种算法的基础上,提出了一种改进的Web结构挖掘算法一一vSM空间投影HITS算法。通过利用提取文本内容的VSM方法,将Web文本内容与Web链接关系有机结合,寻找出一个更合理更值得信赖的空间向量,并将基集向量对此空间投影,以此来修正算法。最后,针对上面的三种算法,进行了一系列实验。实验表明,改进后的VSM空间投影HITS算法和原始HITS算法与空间向量投影HITS算法相比,能更有效的抑制主题漂移现象。关键字:Web结构挖掘;HITS算法;空间向量模型AbstractSince1990s
4、,withthedevelopmentofnetworktechnology,especiallywiththewidespreadapplicationofinternet,WWWhasbecomeagreat,extensiveglobalinformationservicecenter·HowtoeffectivelyhelpuserstofindoutinformationtheywantorinformationresourcetheyareinterestedinInternettomeettheirdemandshasbecomeanurgentproblemn
5、eededtobesolved.TheWebdataminingarisesatthehistoricmomentunderthisbackground.TheWebexistenceindicatesthattherearemassivehumanity’SlatentmeaninginlinksbetweenWebs,includingWebcontentrelevance,informationofqualityandstructure,whichshowstheimportanceandauthoritativenessofWebpage.Thereforewecou
6、ldusesuchlinkstructuretofindoutauthoritypage,that’ShowexactlytheHITSalgorithmuselinkstructuretomineWebdata.ThisthesisismainlyabouttheHITSalgorithmresearch.Inallrelatedalgorithmscarryingonlinkanalysisandextractinggroup,HITS(Hyperlink.InducedTopicSearch)isakindofafterwardsparsingalgorithmthat
7、mostwidelyused.AtpresenttherearemanyrelatedapplicationsinWebstructureminingsystem.ThethesisfirstintroducesrelativeknowledgeofWebdatamining,speciallydiscussesthetheoryofWebstructuremining,analyzesHITSalgorithm,andconductsdeepresearchforitsadvantagesanddis
此文档下载收益归作者所有