一种基于文本聚类的网页排序方法

一种基于文本聚类的网页排序方法

ID:38117781

大小:330.09 KB

页数:4页

时间:2019-05-25

一种基于文本聚类的网页排序方法_第1页
一种基于文本聚类的网页排序方法_第2页
一种基于文本聚类的网页排序方法_第3页
一种基于文本聚类的网页排序方法_第4页
资源描述:

《一种基于文本聚类的网页排序方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、计算机与现代化2008年第1O期JISUANJIYUXIANDAIHUA总第158期文章编号:1006-2475(2008)10-0018-03一种基于文本聚类的网页排序方法曹杰,王直杰(东华大学信息科学与技术学院,浙江上海201620)摘要:提出一种新的网页排序方法一ClusterRank方法。该方法先对检索结果进行文本挖掘,然后利用Web网页的链接信息以及用户点击率对网页重要性的影响对挖掘结果进行排序。该算法可以引导用户进一步明确其检索需求。关键词:ClusterRank;K-means算法;网页点击率;PageRank算法;网页排序中图分类号:TP301.6

2、文献标识码:AANewAlgorithmforPageRankingBasedonTextClustering-dusterWebPageRankingCAOJie,WANGZhi-jie(ColegeofInformationScienceandTechnology,DonghHaUniversity,Shanghai201620,China)Abstract:Thispaperproposesanewalgorithmforpageranking.Theclusteringtechniquesareemployedtoanalyzethosesearch一re

3、sults.thenitranksalltheclusteredtextsconsideringthelinkstructurebetweenWebpages,鹊wellasitsclickratio.Itfacili_ratesu.ser8tonaildowntheirrequirementsthroughskimmingoverresultslist.Keywords:ClusterRank;K-meansalgorithm;pageclickratio;PageRankalgorithm;Webpageranking(MaximalMarginalRelev

4、ance)标准。该标准根据语1概述义相关性对检索到的文档集进行再排序,修正内容上为了从网上海量的数据中找到用户需要的信息,相近的文档的显示次序,从而保证再排序后的检索结搜索引擎允许用户通过关键字查询Web上的信息。果既与查询项相关,同时文档内容问的冗余j受较低。搜索引擎把搜索结果按照检索的相关性和资源的重ChenXiangZhai等人提出子主题检索技术J,它采用要性进行降序排列,并将排序结果提交给用户。然统计语言模型计算文档的相关性,结合了MMR排序而,包含Web关键字的页面数目通常相当多,要让用策略实现子主体检索,以此来减少检索结果的信息冗户浏览全部甚至大部分的

5、网页已经不大可能。实际余度。BenyuZhang他们提出采用AR(Afinity上,据统计81%的用户只会浏览搜索结果的前3页Ranking)算法对搜索结果进行再排序,该方法类比网(约30项)。常用的解决办法是:使用排序算法对搜页结构挖掘,视检索结果集为一个网,网络的节点是索结果进行排序,找出和关键字最相关的网页。查准文档,文档的语义关系构成网络的边,针对每一个节率较高的搜索引擎可以较好地满足那些对其检索需点就形成了内容上的“链入”“链出”关系,然后计算求非常明确的用户。但实际上,不少用户对其检索需各节点的信息量,按照节点包含信息的丰富程度进行求并不明确,他们是在

6、浏览搜索结果的过程中进一步再排序。这些方法大都基于传统的信息检索,仅仅考明确其检索需求的。如何为用户提供一个信息覆盖虑了内容的相关性,并未考虑资源的重要性。为此,率较高的结果列表,帮助用户尽快明确其检索需求就我们将网页的超链接信息结合进来,形成新的网页排是个亟待解决的问题。序算法ClusterRanko为了实现以上目标,Carbonell提出了MMR收稿日期:2007-09-10作者简介:曹杰(1982一),女,河北唐山人,东华大学信息科学与技术学院硕士研究生,研究方向:文本挖掘,搜索引擎技术;王直杰(1969.),男,信息科学与技术学院自动化系主任,控制科学与工

7、程学科教授,研究方向:神经网络理论与应用,复杂网络系统建模与仿真,智能计算与智能系统,数据挖掘技术,数字化纺织服装技术。2008年第10期曹杰等:一种基于文本聚类的网页排序方法19为了较快地对文档集进行聚类,我们选择了K一2ClusterRank网页排序算法//leans算法。目前有多种文本聚类算法,这些算法大ClusterRank方法的目的是在保证信息覆盖率的致可分为两种类型:以G—HAC等算法为代表的层次前提下,尽量为用户提供较权威的网页,从而帮助用凝聚法和K.means等算法为代表的平面戈Ⅱ分法。其户在浏览搜索结果的过程中进一步明确查询需求。中,K—mean

8、s_6算法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。