一种结合社区发现的网页排序算法

一种结合社区发现的网页排序算法

ID:40713603

大小:322.04 KB

页数:4页

时间:2019-08-06

一种结合社区发现的网页排序算法_第1页
一种结合社区发现的网页排序算法_第2页
一种结合社区发现的网页排序算法_第3页
一种结合社区发现的网页排序算法_第4页
资源描述:

《一种结合社区发现的网页排序算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1162007,43(12)ComputerEngineeringandApplications计算机工程与应用一种结合社区发现的网页排序算法田甜,倪林,钱功伟TIANTian,NILin,QIANGong-wei中国科技大学电子工程与信息科学系,合肥230027DepartmentofElectronicEngineeringandInformationScience,UniversityofScienceandTechnologyofChina,Hefei230027,ChinaE-mail:tian123@mail.ustc.edu.cnTIANTian,NILin,QIANGong-w

2、ei.Webpagerankingalgorithmcombinedwithcommunitydiscovery.ComputerEngi-neeringandApplications,2007,43(12):116-118.Abstract:Oneofthemostimportpropertiesintheinternetistheexistenceofcommunities;ThisarticlecombinestheknowledgeofCommunityDiscoverywithlinkanalysis,andbringsupanewrankingalgorithmforsearche

3、ngine.BycomparingwithPageRankalgorithmunderthesamequerycondition,wefindouralgorithmhassomesuperrankingability,whichmakestheresultofthesearchpagemorerelated,andtherankingqualityevenbetter.Ourexperimentfocusontenqueries,finally,wefindthefirsttenresultsofourmethodis4.02timessuperiortothatofPageRank.Key

4、words:communitydiscovery;PageRank;Webstructuremining摘要:社区的存在是互联网的一个重要特性;结合链接分析和社区发现的知识,提出了一种搜索引擎结果排序算法,通过与相同主题下PageRank算法的比较,发现该算法具有良好的排序特性,使网页返回的结果更加相关,排序质量更优化。通过试验,针对十个查询主题展开测试,利用该算法得到的前十个结果的相关程度比相同主题下的PageRank算法提高了4.02倍。关键词:社区发现;PageRank;Web结构挖掘文章编号:1002-8331(2007)12-0116-03文献标识码:A中图分类号:TP3111引言本

5、文在研究排序算法的基础上,同时深入研究了互联网的随着海量信息涌入万维网,检索数据必然会成为一个很大结构特性,一方面,希望能通过一种算法,使得排序的时间消耗的问题,著名搜索引擎营销公司iProspect的调查报告表明[1]:降低到最小;另外一方面,最大程度的结合网络社区的有用信2006年62%的用户只点击搜索结果页第一页的结果,而高达息,排除用户的一些主观意识和目的性的活动(广告、导航、友90%的用户只点击搜索结果页的前三页里的结果。而在2002情链接),从而提高网页的排序效率和质量。年,这两个数字分别为48%及81%。这些变化说明了用户对搜索引擎的要求越来越高,他们愿意花在寻找结果上的时间越来

6、2相关工作越少。因此排序查找到的结果比搜索本身更为重要,尤其是当2.1排序算法检索结果过于庞大时。2.1.1PageRank算法因此研究搜索引擎数据检索排序的问题,逐渐成为受人们PageRank算法的基本出发点是试图为搜索引擎所涵盖的关注的问题,利用互联网的组织结构,如超级链接,或者是网页所有网页赋予一个量化的权威值:即PageRank值,这个值由反提供的超文本信息,改进排序算法成为热点研究的问题。随着向链接所决定,反向链接表示所考察的网页被其他网页引用,研究的深入,很多研究者意识到:不是网页本身提供的信息太反向链接数目越多,则说明该网页被其余网页引用得较多,极少,而是研究者利用的网页信息太少

7、,或者是利用得不合理[2]。有可能是很重要的网页,因此,可以凭借反向链接的数目来确本文提出了一种新的排序算法:通过互联网的社区改善网定该网页的重要程度。页排序,互联网的社区是指讨论相关主题的若干网页,大量资2.1.2Hits算法料表明[1,3-7],互联网存在着社区特性,即相同主题的网页很有可与PageRank算法不同的另外一种Web模型是Kleinberg能通过超级链接聚集在一起,但同样不可否认

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。