资源描述:
《web structure mining在电子商务网站中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、WebStructureMining在电子商务网站中的应用本栏目贲任编辑:冯蕾网络通讯与安全?WebStructureMining在电子商务网站中的应用巫满秀.(嘉应学院计算中心,广东梅州514015)摘要:介绍Web结构挖掘的概念,并分析基于链接结构的两种重要的web结构挖掘算法,最后指出其在电子商务网站的应用以提高网站的价值关键词:数据挖掘;结构挖掘;网页级别;HITS中图分类号:TP31文献标识码:A文章编号:1009—3044(2007)05—11215—01TheApplicationofW
2、ebStructureMininginElectronicCommerceWebsiteWUMan-xiu(ComputerCenter,JiaYingUniversity,Meizhou514015,China)Abstract:ThispaperintroducestheconcepdonofWebstructuremining.analysesthetwoauthoritativealgorithmsbasedonWebhyperlinkstructure.Attheend.itpointsou
3、ttheapplicationonincreasingtherankoftheElectronicCommercewebsitebyWebstructureminingalgo—rithms.KeywOrds:DataMining;StructureMining;PageRank;Hyperlink?—InducedTopicSearch互联网信息资源越来越庞大,一方面为信息传播开辟了新的途径.另一方面也给用户的利用带来新的挑战.针对Web上的信息只有很小的一部分是相关的或有用的,而且存在大量的垃圾信
4、息问题,人们迫切需要能从这些海量的信息中找到有用知识的工具.Web挖掘随着时代的需求出现了.Web挖掘指在WWW上挖掘潜在的,有用的模式及隐藏的信息过程.Web数据主要来自于三个方面:Web服务器中的日志文件,Web服务器中的其他信息以及客户的背景信息.按照对应的数据类型,Web挖掘可分为:Web内容挖掘,Web结构挖掘和Web使用挖掘(即用户访问模式挖掘).[1】1Web结构挖掘Web结构挖掘即挖掘Web潜在的链接结构模式.即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式.W
5、eb结构包括不同网页之间的超链接结构和一个网页内部的可以用HTML.XML表示成的树开结构,以及文档URL中的目录路径结构等.Web页之间的超链接结构中包含了许多有用的信息,当网页A到网页B存在一个超链接时,则说明网页A的作者认为网页B的内容非常重要,且两个网页的内容具有相似的主题.如果大量的链接都指向了同一个网页,我们就认为它是一个权威页.这种思想有助于对搜索引擎的返回结果进行相关度排序.从WWW的组织结构和链接关系中推导知识.这种模式通过对Web站点的结构进行分析,变形和归纳,将Web页面进行分类
6、,并且可以由此确定有关不同网页间的相似度和关联度信息.Web结构挖掘有助于用户定位到相关主题的权威站点,并且可以指向众多权威站点的相关主题的站点,极大的提高检索结果的质量.12Web结构挖掘算法概述基于超链分析的思想.SergeyBrin和LawrencePage在1998年提出了PageRank算法,同年J.Kleinberg提出了HITS算法.其它一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法.这些算法有的已经在实际的系统中实现和使用,并且取得了良好的效果
7、.2.1PageRank算法PageRank算法是Web超链接结构分析中最成功的代表之~,该算法是评价网页权威性的一种重要工具.搜索引擎Google,Yahoo,Baidu都是利用该算法对检索出的大量结果进行相关度排序.将最权威的网页尽量排在前面.PageRank的发明者把引文分析思想借鉴到网络文档重要性的计算中来,通过对网络超链接结构进行研究,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为"网页A投了网页B一票",增加了网页B的重要性.最后根据网页的得票
8、数评定其重要性,以此来帮助实现排序算法的优化,而这个重要性的量化指标就是PageRank值.根据因特网自身的性质,因为网页的发布非常自由,成本很低并缺乏控制.用一个简单的程序就可以产生大量的网页和很多链接,而且网页的链接范围领域很广,所以简单的链接数量计算并不能客观真实地反映网页的重要性,所以PageRank不仅考虑了网页引用数量,还特别考虑了网页本身的重要性,重要网页所指向的链接将大大增加被指向网页的重要性.简单地说,PageR.ank就是要从链接结构