资源描述:
《web数据挖掘现状分析 》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、Web数据挖掘现状分析 摘要:随着Interining,DM)是指从大量数据中提取或“挖掘”知识,即从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,海量数据不断产生,随之而来的问题,便是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。各种类似Google、百度等的搜索引擎也层出不穷,ationRetrieval)和信息抽取IE(InformationExtra
2、ction)相当重要。信息获得(IR)的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合;而信息抽取(IE)的目的在于从文档中找到需要的数据项目,它对文档的结构和表达的含义感兴趣,它的一个重要任务就是对数据进行组织整理并适当建立索引。 3Web数据挖掘的分类 Web数据挖掘是一项具有挑战性的课题,它实现对Web存取模式、结构和规则以及动态的Web内容的查找。一般来说,Web数据挖掘可分为4类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘。其中,Web内容挖掘、Web结构挖掘和Web使用记录挖掘是Web1.0时代就
3、已经有了的,而Web用户性质挖掘则是伴随着Web2.0而出现的。 3.1Web内容挖掘 Web内容挖掘指从Web内容、数据、文档中发现有用信息,主要包括文本挖掘和多媒体挖掘两类,其对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。 目前,Web内容挖掘一般从两个不同的观点来进行研究:一种是从资源(IR)查找的方面来看,即从用户的角度出发,研究怎样提高信息质量和帮助用户过滤信息。这方面的研究大部分都是建立在词汇袋(bagofwords)或称向量表示法(vectorrepresentation)的基础上,它将单个的词汇看成文档集合的属性,只从统计的角度将
4、词汇孤立地看待,而忽略该词汇出现的位置和上下文环境。这种方法的弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们作了相应的研究,采取了不同技术,如信息增益、差异比等。 另外一种是从数据库(DB)的观点进行Web内容挖掘,主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而不只是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web知识库来实现。数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。 3.2Web结构挖掘 Web结构挖掘的对象是Web本身的超链接,即对Web文档的结构进行挖掘。由于有用
5、的知识不仅包含在Web页面的内容中,而且也包含在页面的结构中,所以Web结构挖掘是从站点的组织结构和页面结构中推导出知识,找出数据链的结构进行分类、聚类,从而发现页面间的关系,进而改进搜索引擎的性能。对于给定的Web文档集合,应该能够通过算法发现它们之间链接情况的有用信息,文档之间的超链接反映了文档之间的包含、引用或者从属关系,引用文档对被引用文档的说明往往更客观、更概括、更准确。 Web结构挖掘在一定程度上得益于社会网络和引用分析的研究。Web结构挖掘的基本思想是将Web看作一个有向图,它的顶点是Web页面,页面间的超链接就是图的边,然后利用图对Web的拓扑结构
6、进行分析。Web结构挖掘算法一般可分为查询相关算法和查询独立算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS和PageRank分别是查询相关算法和查询独立算法的代表。他们的共同点是使用一定方法计算Web页面之间超链接的质量,从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。 3.3Web使用记录挖掘 Web使用记录挖掘也叫Web日志挖掘或Web访问信息挖掘,在新兴的电子商务领域有重要意义,它通过挖掘相关的Web日志记录,来发现用户
7、访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外,还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询等一切用户与站点之间可能的交互记录。可见,Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富。根据对数据源的不同处理方法,Web用法挖掘可以分为两种:①将网络服务器的日志文件作为原始数据,应用特定的预处理方法进行处理后再进行挖掘;②将网络服务器的日志文件转换为图表,然后再进行进一步的数据挖掘。