欢迎来到天天文库
浏览记录
ID:39558760
大小:241.50 KB
页数:12页
时间:2019-07-06
《毕业论文 WEB结构挖掘的研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、毕业论文WEB结构挖掘的研究[摘要]本文概述了Web结构挖掘的有关概念和相关应用,详细分析和比较了基于超链接结构分析的网页排序的两种最权威算法——Pagerank和HITS,其中,PageRank算法只考虑页面间的超链接,把web页看成是一个巨大的有向图,利用公式计算每一个网页的PR值,最后按照PR值得大小进行网页排序,随后给出了一个简单的网络链接图,进行了实例的验证。HITS算法是利用中心网页与权威网页之间有着相互加强关系的方法进行的一种搜索方法。并介绍了一种对Pagerank算法的改进,考虑到不同链接之间权重的不同,
2、修正公式为,利用同一个网络图验证了改进后的算法,发现新的算法更合理,更精确。最后介绍了有关Web结构挖掘技术的几个新的研究方向。[关键词]Web结构挖掘PagerankHITS超链接1.引言网络就像是由成千上万个互相连接、交织在一起的细胞组织起来的一个复杂结构,它是巨型的世界性的产物,不断的迅速发展壮大;它将世界各地的众多的计算机用户和企业产品放在一个巨大的数据库中,在这个大环境下,网络信息推动了社会综合因素的发展。比如,用户的需求带动了产品的特性以及实用性的发展,同时也壮大和发展了企业的生产规模;反过来,产品的丰富和发
3、展又满足了人们方方面面的需求,方便了人们的工作和生活,形成了互惠互利的动态商务格局。因而在现代社会中,网络逐渐成了人类赖以生存的环境,也只有网络才能带来如此的效应。面对网络在现代生活中日益显现出来的重要性,人们已经开始对网络中的数据进行挖掘,去了解、学习和预测在网络环境中用户的兴趣、习性和一切活动。在网络经济时代,对于商家来说没有什么比适应和接受用户的需要更至关重要。因而在这个快捷发展的环境中,网络挖掘势必是一个影响网络长期发展效益的关键步骤,如果不能快捷、准确地适应和满足用户的需求,网络最终必将导致失败。WorldWi
4、deWeb是一个由无数分布在世界各地的Web站点组成的全球信息系统,每个Web站点又是一个由许多Web页构成的信息子系统。站点内的Web页并不是孤立存在的,相关的文档之间通常有超链相链接,这些超链链接描述了文档之间的联系,同时为用户浏览Web站点提供了可用的路径。一般地说,每个Web站点都有一个称为主页的文档,它是用户浏览Web站点的入口。也就是说,从站点主页到任意一个站点的内部文档都至少有一条由超链组成的有向路径,用户通常可以通过点击超链从站点主页浏览到每一个内部文档。-12-毕业论文由于一个文档作者可以通过超链把自己
5、的文档与任意一个已知的Web页链接起来,而一个Web站点上的信息资源又通常是由许多人共同提供的,因此Web站点内的超链链接通常是五花八门、各种各样的。它们可以有各种各样的含义和用途。虽然许多人倡导显示类型的超链使用方法,如XML语言,但是在大多数的WorldWideWeb文档资源中超链的类型还是隐含的,需要进行划分和挖掘。2.网络挖掘的三种类型WWW有一个极具伸缩性的结构,它能够灵活地面对不同的应用,它最大的特点就是能够链接、搜索和编排内容。网络是不是能够很好地被利用,在很大程度上取决于网络挖掘的效果。网络挖掘通常有内容
6、挖掘、使用挖掘和结构挖掘三种类型。内容挖掘是从文本、图像和组成页面的其它内容中提取信息的过程。使用挖掘是根据网站用户如何使用网站内容来提取信息的过程。网络结构挖掘就是指通过分析不同网页之间的超链接结构,网页内部的可以用HTML、XML表示成的树形结构,以及文档URL中的目录路径结构等,发现许多蕴含在网络内容之外的对我们有潜在价值的模式和知识的过程。如下表所示,结构挖掘的原始数据就是链接页面的超链,而内容挖掘是成千上万页面中的文本,其载体是HTML和XML语言,但是无论是结构挖掘还是内容挖掘,都是在一种理想的状态下,也就是
7、一种静态的挖掘。事实上网络内容和链接都是在不宽变化的,所以必须要借助网络信息收集和索引。图1三种挖掘类型之间的关系挖掘内容数据来源数据形成数据对象搜索结构挖掘拓扑结构超链有向图超链集内容挖掘页面挖掘文本索引页面集使用挖掘访问形式点击流用户行为日志数据结构挖掘借助的是网站中从一个页面到另一个页面的链接图,而内容挖掘借助的是网站中所有文本的字、词和图像的索引。内容挖掘不需要了解文件之间的链接,而结构挖掘与文件所包含的信息内容无关。如果我们要了解谁访问了这些网站,以及网站如何去影响他们的访问行为,就需要进行使用挖掘。在使用挖掘
8、重要记录和总结用户在网站中的个性化交互行为,包括访问网站、经过路径、浏览文件、查询方式和商业活动内容等。事实上,在现实中要想准确地描述用户的访问行为是一件很困难的事情,因为这些数据被分散在WebLogs,ApplicationServerLogs,CommerceServerLogs.不同商业组织的产品和顾客数据库中
此文档下载收益归作者所有