资源描述:
《Web数据挖掘现状分析.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、Web数据挖掘现状分析 摘要:随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,如何在这个全球最大的数据集合中发现有用信息成为数据挖掘研究的热点。Web数据挖掘是目前数据挖掘领域中的一个很重要的研究领域,文章介绍了Web数据挖掘研究领域的现状及发展。 关键词:数据挖掘;Web挖掘 Abstract:WiththerapiddevelopmentandpopularizationofInternet/Webtechnology,awiderangeofinformationcanbeaccessedinthenetworkatverylowco
2、st.ThefocusofdataminingisHowtofindusefulinformationintheworld'slargestdatacollection.Webminingisaveryimportantresearchinthefieldofdatamining.ThispaperoutlinestheareasofWebdataminingresearchanditsstatusquoanddevelopment. Keywords:datamining;webmining 数据挖掘(DataMining,DM)是指从大量数据中提取或“挖掘”知识,即从存放在数据库、数据
3、仓库或其他信息库中的大量数据中挖掘知识的过程。随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,海量数据不断产生,随之而来的问题,便是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。各种类似Google、百度等的搜索引擎也层出不穷,Web数据挖掘的应用在现实中不断体现。 1Web挖掘概述 近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息能以非常低的成本在网络上获得,而从中取得的数据量便难以计算,而且Internet/WWW的发展
4、趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,因此,如何在WWW这个全球最大的数据集合中发现有用信息,无疑将成为数据挖掘研究的热点。而Web挖掘便是指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。它建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、筛选、转换、挖掘和模式分析,最后作出归纳性的推理。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。 2Web挖掘流程 与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的,并且是容易造成混淆的
5、,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下: (1)查找资源。从目标Web文档中得到数据。这些信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组或者网站的日志数据甚至是通过Web形成的交易数据库中的数据等。 (2)信息选择和预处理。从取得的Web资源中剔除无用信息,将信息进行必要的整理。例如,从Web文档中自动去除广告连接和多余格式标记、自动识别段落或者字段,并将数据组织成规整的逻辑形式甚至是关系表。4 (3)模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。 (4)模式分析:验证、解释上一步
6、骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。 Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(InformationRetrieval)和信息抽取IE(InformationExtraction)相当重要。信息获得(IR)的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合;而信息抽取(IE)的目的在于从文档中找到需要的数据项目,它对文档的结构和表达的含义感兴趣,它的一个重要任务就是对数据进行组织整理并适当建立索引。 3Web数据挖掘的分类 Web数据挖掘是一项具有挑战性的课题,它实现对Web存取模式、结构和规则以及动态的We
7、b内容的查找。一般来说,Web数据挖掘可分为4类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘。其中,Web内容挖掘、Web结构挖掘和Web使用记录挖掘是Web1.0时代就已经有了的,而Web用户性质挖掘则是伴随着Web2.0而出现的。 3.1Web内容挖掘 Web内容挖掘指从Web内容、数据、文档中发现有用信息,主要包括文本挖掘和多媒体挖掘两类,其对象包括文本、图像