基于超链接的web结构挖掘算法的研究

基于超链接的web结构挖掘算法的研究

ID:34111823

大小:1.78 MB

页数:53页

时间:2019-03-03

基于超链接的web结构挖掘算法的研究_第1页
基于超链接的web结构挖掘算法的研究_第2页
基于超链接的web结构挖掘算法的研究_第3页
基于超链接的web结构挖掘算法的研究_第4页
基于超链接的web结构挖掘算法的研究_第5页
资源描述:

《基于超链接的web结构挖掘算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、壶簧它手辩校竞警硕士学位论文题c÷*女,目基于超链壤的州衄萤擅搀蛔蔓潼的卿疽Algo!t畹旦!!魍rc!卫蛆WE旦唧理c‘呲M陋iⅡ叠垦!!d蚋⋯⋯⋯地pMn!k.作者姓名.錾拯民⋯指导教师姓名、职务蓥红卫敦擐学科门类王望学科、专业ir算机熬熊与里监提交论文日期三旦9主年一且摘要近年米,随着Inteme“、Ⅳeb技术的快速普及和迅猛发展,其为人们提供了丰富的信息资源的同时,它所具有的海量数据、复杂性、极强的动态性和州户的多态性等特点也给web资源的发{6}

2、造成了相当的难度。因此.将数据挖掘技术和web结合起来,进行w曲数据挖掘也就随之成为了解决w曲挖掘问题的重要途径。

3、本文通过对经典的、№b结构挖掘算法HJTs和Pa譬eRank的研究学习,针对HITs算法中完全只考虑web页面之间的超链接分析而忽略的web页面的内容,从而导致分析结果出现主题偏移平¨种种的不足,提出了一种结合超链接分析和内容相关性分析的关丁.HITs的改进算法,该算法通过对不同web页面进行内容分析并赋予链接之间不同的权重来实现对HITs的故进,并最终通过实验证明该新算法的有效性。最后我们还针对HITs算法和PageRank算法中住对页面1了点进行排序时存在将页面权威性与枢纽性完全分开或忽视了页面的枢纽性,造成信息的丢失等问题,通过重新殴定PageR∞k算法中的个性化

4、矢耸冈子E,探讨建立住此基础上的HubRank算法.并通过实验验证了该算法对该问题的有效性。关键宇:wEB结构挖掘超链接HⅡsPageRAⅡkAbstractRecentlXalongwiththequickpopuIarizationanddeVelopmentOftheIntemetandWebtechnoIogy,itsuppliespeoplewithabundantinformation.ButtheVastcompljca靶danddynamicInternetinformationalsomakeitverydiffjcultforpeopletomine

5、theW曲resource.SoitjsaVeryimponantmethod协jmplementWebdataminingbycombjningtraditionaIdataminingtechnoIogyandW曲Bystudy{ngtheclassicalWebstructureminingalgorithmHITSandPageRankandconsideringthattheHITSonlycalcuIalesthehyperljnkamongthewebandjgnorestheconIentofwebresultinthedrawbackoftopicd“

6、凡weproposeanimproVedH1TSaIgorithmthatcombineshyperlinkanalysisandcontentanalysis.ThenewalgorithmimproVestheHITSbyanaIyzingthecontentofthewebandgivingthehype—inkswithd{f『erentweight.Andexpe—mentproVesthenewaIgorithme何色c“ve.Fina¨y’fort}1eaIgorithmHITSandPageRallkwilIseparatethepagelsautho—

7、tyf如mIhepage’shuboreVenignorethepage’shub,wedlscuss也epersonalizedPageRankVectorandtheaIgorithmHubRankbasedOnPageRank.AndIheexperimentnnallypmVetheHubRankiseHbctiVetolheorOblem.Keyword:WEBstructuremininghyperHnkHITSPageRank创新性声明y858979本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢

8、中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。