欢迎来到天天文库
浏览记录
ID:45933926
大小:65.50 KB
页数:5页
时间:2019-11-19
《浅谈web数据挖掘技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、浅谈Web数据挖掘技术摘要:随着网络的快速发展与普及,大量冇用的网络信息给人们生活、工作和学习带来了便利。与此同时网络中还存在着许多无用的信息,如何从浩如烟海的数据海洋中,快速准确的查找数据,成为了当今社会不可忽视的问题。Web数据挖掘技术,止是解决这一问题的关键。该文从Web数据挖掘技术的角度,阐述Web数据挖掘的概念、分类、过程及常见的Web数据挖掘算法。关键词:Web数据挖掘;PageRank算法;网络数据中图分类号:TP311.12文献标识码:A文章编号:1009-3044(2013)22-4992-021概述当前,人们随时随地都在利用网络获取信息,
2、不断利用网络进行着上传和下载的操作,这些信息数据在网络上传播和储存着。因此,网络就形成了一个庞大的数据存储集散地。如何从海量的网络数据中快速有效地对数据进行分析和检索,并在英中发觉潜在有用的信息,是当今社会需要解决的问题。Web数据挖掘技术正是很好的解决了这个问题,以下将探讨一下Web数据挖掘技术。2Web数据挖掘概念2.1数据挖掘Web数据挖掘是数据挖掘的一个分支,首先需要了解什么是数据挖掘。数据挖掘(DataMining,DM),是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的知识的过程。在数据库系统中称其为知识发现(KnowledgeDi
3、scoveryinDatabase,KDD)OWeb数据挖掘技术融合了数据库系统、统计学、信息科学、人工智能、机器学习等,是一个新兴的多学科交叉应用领域。2.2Web数据挖掘Web数据挖掘是在数据挖掘技术的基础上,针対网络数据主要是Web文档和服务日志文件进行的数据分析、归纳和汇总并在其中发现和提取潜在有用的信息及知识的技术。2Web数据挖掘的分类根据Web数据挖掘的对象,可将Web数据挖掘划分为三种类型。3.1Web内容挖掘(WebContentMining)Web内容挖掘指从Web网站的内容屮发现潜在的冇价值的信息和抽取知识的过程。Web网站的内容分为:
4、文木、图像、音频、视频和动画等。因此,Web内容挖掘又可分为文本数据挖掘(包括文本和网页文件格式)和多媒体数据挖掘(图像、音频、视频等多媒休数据),Web内容挖掘主要应用于文献检索系统、垃圾邮件的处理、信息过滤、电子资源检索等。3.2Web结构挖掘(WebStructureMining)Web结构挖掘是对网站的超级链接进行分析和处理,从各个超级链接中发现权威网页和有价值的网页,并根据此标准对网页和网站进行评级、分类。Web结构挖掘主要任务是查找权威网页,并识别各网页之间的相互关系,从而发现网站的结构,获取不同网页相似度和网站的关联度。Web结构挖掘主要应用于
5、搜素引擎,对同一主题的网页进行排序。3.3Web使用挖掘(WebUsageMining)Web使用挖掘是通过对计算机上的日志文件,如在服务器的Log文件和cookies文件等,涉及关联规则的挖掘,从中发现频繁使用的网页模式。如购买计算机的用户过一段时间购买打卬机的概率,或者买计算机同时买电脑包的概率等•通过挖掘用户的访问模式,发现口志记录中的规则,如通过经常访问的路径,对网站的结构进行改进•通过聚类把不确定形式的用户和数据进行归类,发现潜在的客户和隐含群体,针对用户进行相关的营销等策略,提供针对性的活动,从而提高服务质量。Web使用挖掘主要应用于商业营销,并
6、为商业决策提供依据。2Web数据挖掘的过程5常用Web数据挖掘算法Web数据挖掘冇很多算法,其屮Web结构挖掘有PageRank、HITS和CLEVER等很多经典算法。其中PageRank算法是1998年斯坦福大学的博士研究生SergeyBrin和LawrencePage最早提出利用超链接信息进行Web结构挖掘的算法。PageRank是超链接结构分析中最成功的代表之一,是评价网页权威性的一种重要工具,搜索引擎Google公司就是利用PageRank算法和其他统计因素相结合的方法,对检索出来的大量结果进行相关度的排序。下面简单介绍一下PageRank算法。5.
7、1算法思想PageRank算法的基本思想是:如果网页M被网页N超级链接,则N就认为M是重耍的,也就相当于N投了M—票,如果网页M被多个网页超级链接,则是多个网页投了网页M的票,它们都认为网页M是重要的,那么网页M—定是重要的;一个网页即使没有被其他网页多次超级链接到,但在一个重要的网页屮使用了指向它的超级链接,则这个网页很可能也是重要的,因为PageRank算法把每一个网页的重要性均分并被传递到它所链接的网页中,这样被重要网页链接的网页就可以分到更多的重要性值,它被列入推荐的能力值就越大。因此,网页之间的超级链接关系在一定程度上能表明Web文档的重要性。6小
8、结近年来网络的迅猛发展,使网络数据成儿何级数增长,W
此文档下载收益归作者所有