欢迎来到天天文库
浏览记录
ID:26726882
大小:56.00 KB
页数:7页
时间:2018-11-28
《web结构挖掘在电子商务网站结构优化中的应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、Web结构挖掘在电子商务网站结构优化中的应用[摘要]本文概述了ining)则是判断网站结构是否合理的一个有效方法。使用ining)、ining)及ining)。其中L,XML表示的树形结构,以及文档URL中的目录路径结构等。Web页面之间的链接结构中包含了许多有用的信息,Web结构挖掘是从Web结构中推导知识,即对Web文档的结构进行挖掘,挖掘Web潜在的链接结构模式,通过分析网页间链接数量及对象来建立网站自身的链接结构模式。 Web结构挖掘的基本思想是将Web看成是一个巨大的以Web页面为节点、页面之间超链接为有向边所构成的一个
2、网状结构的有向图,然后利用图论对Web的拓扑结构进行分析,从而确定其网站结构的合理性。 Web结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。HITS(HypertextInducedTopicSearch)和PageRank分别是查询相关算法和查询无关算法的代表。这些算法已经在实际的系统中实现和使用,并且取得了良好的效果。 三、Web结构挖掘算法描述 基于超链接分析的思想,SergeyBrin和LawrencePage在1998年提出了PageRank算法,同年J.Kleinberg提出了HITS算法,其他一些学者也
3、相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。对超链接进行挖掘的两个典型的算法是:PageRank算法及HITS算法。 1.PageRank算法 PageRank算法是Web超链接结构分析中最成功的代表之一,该算法是评价网页权威性的一种重要工具。Google、Yahoo、Baidu等都是基于该算法的搜索引擎。PageRank算法基于2个前提,一是若网页A被多次引用,则A重要;若A被重要网页B引用,则A重要;B的重要性被平均的传递到它所引用的网页。二是若用户访问网页A,然后跟随A的导出链接向后浏览
4、网页B而不退回A,那么浏览B的概率就是B的PageRank值。 PageRank在具体实现时会忽略掉页面的文本和其他内容,只考虑页面间的超链接。但由于网页的链接范围领域很广,链接的页面价值参差不齐,所以仅以简单的链接数量来判断网页的重要性是不真实客观的,所以其他研究者对PageRank算法提出了改进。改进的PageRank算法不仅考虑了网页引用数量,还根据页面的导入链接的权重来计算页面的重要性。页面导入链接的权重由链接提供页面的重要性所决定,即当前页面的重要性主要由其他页面的重要性来决定,PageRank算法就是从链接结构中获取网
5、页的重要性。 简单PageRank算法描述如下: PR(A)=(1-d)/N+d(PR(T1)/C(T1)+...+PR(Tn)/C(Tn)) 其中:PR(A):页面A的PR值, PR(Ti):页面Ti的PR值,页面Ti链向页面A C(Ti):页面Ti链出的链接数量 d:阻尼系数,取值在0-1之间 N:互联网上所有网页的数量 由此可见,PageRank算法不以站点排序,页面PR值由独立的页面决定。页面的PR值由链向它的页面的PR值决定,但每个链入页面的贡献值是不同的。如果Ti页面中链出越多,它对当前页面A的贡献就越小
6、。A的链入页面越多,其PR值也越高。阻尼系数的使用,减少了其他页面对当前页面A的排序贡献。所有页面的PR值形成了一个概率分布,所有页面的PR值之和为1。 简单PageRank算法也可以用矩阵来描述,设T为一个矩阵,T的行和列对应页面集的页面。PageRank的算法是将T的行和列互换后得到的矩阵A。为了将各列矢量的总和变成1(全概率),把各个列矢量除以各自的链接数(非零要素数),即如果网页i有指向网页j的一个链接,则Aij=1/Ni,否则Aij=0,就形成了一个“推移概率行列”,各个行矢量表示页面间的推移概率。由T倒置得到A的理由是
7、,PageRank并非重视“链接到多少地方”而是重视“被多少地方链接”。PR值的计算,就是求属于这个推移概率行列最大特性值的固有矢量。 2.HITS算法 HITS算法综合权衡了查询内容与页面链接的关系。HITS算法认为网页的重要性依赖于用户提出的查询请求。HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威
8、度越高。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。 HITS算法是一个“迭代—收敛”的过程,在获取了一个与查询主题
此文档下载收益归作者所有