web数据挖掘与虚拟数据库的应用new

web数据挖掘与虚拟数据库的应用new

ID:34646937

大小:252.05 KB

页数:5页

时间:2019-03-08

web数据挖掘与虚拟数据库的应用new_第1页
web数据挖掘与虚拟数据库的应用new_第2页
web数据挖掘与虚拟数据库的应用new_第3页
web数据挖掘与虚拟数据库的应用new_第4页
web数据挖掘与虚拟数据库的应用new_第5页
资源描述:

《web数据挖掘与虚拟数据库的应用new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、http://www.paper.edu.cnWeb数据挖掘与虚拟数据库的应用胡江洪,高伟峰(武汉理工大学计算机学院,湖北武汉430070)摘要:本文就目前数据挖掘领域的一个研究热点即Web数据挖掘进行介绍,描述了Web数据挖掘的分类、与传统数据挖掘的异同、实现的关键技术等要点,并针对Web数据库中的半结构化数据,结合实例说明使用虚拟数据库(VDB)技术将半结构化、分布广泛等特征的数据构建为统一的基于Web的数据仓库对Web数据挖掘的重要性。关键词:Web数据挖掘;虚拟数据库;数据仓库1、引言万维网上丰富的信息资源蕴含着大量有价值的数

2、据和知识,面对Web巨大的数据量,而且数据分布极为广泛,具有海量、复杂、结构多样性等特点,如何准确、快速从中获取我们所需要的信息、提高在Web上检索的效率是目前许多研究人员探讨的热点。目前在Web上搜索信息基本上都是用搜索引擎来完成,但它的效率不高,搜索出来的信息有很多是无用的,还必须自己手动地去查找。因此需要一种能够自动的从万维网上查找、发现、过滤信息,不需要人工干预,决策者能以交互的方式对数据进行多维、多角度的分析,这样就出现了Web数据挖掘技术。Web数据挖掘就是从Web资源上发现潜在的、隐含的规律性的内容,解决数据的应用质量问

3、题的过程。它是数据挖掘的一个重要分支,但又有很多自身独有的特点。比如:Web的数据结构为半结构化的,动态的、不完全的、混沌的特点。因此Web数据挖掘比传统数据挖掘要复杂得多,涉及到的许多问题成为NP-hard问题。对Web数据构建数据仓库是Web数据挖掘有效实现的重要方法,其关键是怎样构建基于Web的数据仓库?虚拟数据库(VDB)和XML技术的出现为构建基于Web数据仓库难题的解决带来了希望。VDB技术构建Internet上所有XML的文档为一个数据仓库,使得应用程序可以提供对分散在各类原始数据源中的数据进行访问的服务,同时让不同结构

4、的数据在研究人员面前呈现出规范的RDBMS的数据表现,使得更加容易地实现Web数据的挖掘。2、Web数据挖掘2.1Web数据挖掘的分类面向Web的数据挖掘是一项复杂的技术,它处理的对象大致分为三类:Web数据,即Web的文档内容、Web的结构数据、Web的使用信息,相应的Web挖掘可分为Web内容挖掘(Webcontentmining)、Web结构挖掘(Webstructuremining)、Web使用挖掘(Webusagemining)。下面分别详细讲述这三种Web挖掘。图1给出了Web挖掘的分类图:-1-http://www.pa

5、per.edu.cnWeb挖掘Web内容挖掘Web结构挖掘Web使用挖掘Web文搜索结Web组织网页引用一般访问定制使用档挖掘果挖掘挖掘挖掘模式跟踪跟踪图1Web挖掘的分类2.1.1Web内容挖掘Web内容挖掘是从文件内容及其描述中获取有用的信息的过程,是一种基于网页内容的挖掘,实际上包括Web文档内容的挖掘和搜索结果的挖掘。其中文档内容的挖掘就是对Web上大量的文档集合的内容进行摘要、分类、聚类、关联分析、以及利用Web文档进行趋势分析预测等等。而对搜索结果的挖掘是对搜索引擎的查询结果进一步的处理,得到更为精确的信息,这个目的是增强

6、搜索引擎的查询功能。2.1.2Web结构挖掘Web结构挖掘是指从Web的组织结构、Web文档结构及其链接关系中挖掘出隐藏的、潜在的信息。由于Web文档之间是互相关联的,Internet能揭示文档间的关联关系所代表的信息,还能反映页面的重要程度。Web结构挖掘的目的是为了发现Web的结构和页面的结构及隐藏在这[1,2][3]些结构中的有用模式;同时对页面和链接进行分类和聚类。比如:PageRank和CLEVER,它们利用了文档间的链接信息查找相关Web页。在这方面比较成熟的算法有Page-rank、HITSHyperlink-Induc

7、edTopicSearch、Hub/authority及改进的HITS(将内容信息加入到链接结构中)。目前Web的结构挖掘主要是针对链接结构模式。它主要是源于通过分析一个网页链接和被链接数量以及对象来建立Web之间的链接结构模式,这种模式可应用于网页的分类、聚类等,并可由此获取网页间相似度及关联度的信息。目前用户用的比较多的系统有Google等。2.1.3Web使用挖掘Web使用挖掘是从web的存取模式中获取有价值的信息的过程。即从用户访问记录、服务器被访问的记录、代理服务器的日志记录、用户浏览网页时的动作等数据来分析和预测用户的行为

8、。目前Web的使用挖掘产品较多,例如:NETPERCERPTION公司的Netpercerptions,它采用了一个实时建议的技术:产品对象能够根据用户以前的浏览行为,在其他用户中找出与他有类似的浏览行为,由这些用户的行

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。