资源描述:
《web数据挖掘技术及工具研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、邓英李明(甘肃工业大学电气工程与信息工程学院,兰州30""4")567+89:’87’:+8;(7+89$<=7$<&摘要%&’()&(’应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于,(-的应用。文章就,(-挖掘技术的概念、分类及文本挖掘和用户访问模式挖掘的实现技术做了详细的阐述,并在此基础上介绍了一些实用的,(-挖掘工具。关键词,(-挖掘文本挖掘用户模式挖掘文章编号#""!6>00#6(!""#)!"6""?!6"0文献标识码1中图分类号@A0##$"%"&’()*+!"#,-+-+.&+/0**1%2"+.3-+.4-,-+.(B=99(2(=C59(<’
2、)8<+9+&D%&C=)7+’8=&5&28&(()8&2,E+&:FG&8H$@(
3、F<(::=7(+LL98(D’==9:=C,(-78&8&2$7"89*’/%:,(-78&8&2,’(P’78&8&2,G:+2(78&8&2#引言随着%&’()&(’*%&’)+&(’技术的发展,尤其是,(-的全球普及,使得,(-上信息量无比丰富,如何从非格式化数据信息中有效地挖掘出有用的信息是对数据挖掘领域的一个新挑战。,(-上.#/的数据信息不同于数据库。数据库有规范的结构,如关系数据库的二维表结构。它有统一的格式,其中的数据为完全结构化的数据。,(-上的信息则不然,主要是些大量的、异质的,(-信息资源,文档结构性差,其数据多为半结构化或非结构化。由于半结构化和非结构化的信息不
4、能清楚地用数据模型来表示,因此在,(-上的数据挖掘需要用到很多不同于单个数据仓库挖掘的技术。文章将对,(-挖掘技术做系统性的研究和探讨,并在此基础上介绍一些用于,(-挖掘的工具。式的复杂模糊目标,而挖掘系统则能够从文本中提取出目标信息的特征,然后根据目标特征在网络中进行有目的的搜寻,将搜寻到的文档提交给用户。(!)信息检索目的是针对某一特定领域进行信息或文档的收集,可以看作是用于,(-挖掘中文档分类的一种情况。(0)不是所有的信息检索都要用到数据挖掘技术,因此信息检索通常不能发现隐藏在数据后面的联系,而,(-挖掘的目的就是将大量看似无关的数据关联起来发现其中的规则和知识以供决策支持。尽管
5、,(-挖掘不同于信息检索,但它们在实现技术上却有很多相似之处,所以,(-挖掘技术可以借鉴信息搜索技术。,(-挖掘可分为三类:内容挖掘、结构挖掘、用户访问模式挖掘,而,(-信息挖掘和用户访问模式挖掘是,(-挖掘的两个主要方面。文章就这两个主要方面进行论述。!$#,(-内容挖掘,(-的内容挖掘可以说是将数据挖掘技术在网络信息处理中的应用,不同于传统的数据挖掘技术,,(-挖掘主要是针对各种非结构化的数据,如文本数据、音频数据、视频数据、图形图象数据等多种数据相融合的多媒体数据挖掘。又可将其分为基于文本的挖掘和基于多媒体的挖掘两种。基于文本的,(-挖掘方法有数据库方法,建立,(-数据仓库方法和新
6、近的基于软件12(&’的分类器方法、基于概念的文本信息挖掘法。,(-多媒体的信息挖掘通常采用的方法为关联规则法和特征提取法。数据库方法和数据仓库都是采用数据抽取和转换的方法将非结构化的,(-信息转化或映射为结构化的数据结构,然!,(-挖掘概念,(-挖掘是利用数据挖掘技术从,(-文档及,(-服务中自动发现并提取人们感兴趣的信息。它是一项综合技术,涉及到%&’()&(’技术、人工智能、计算机语言学、信息学、统计学等多个领域。通常,(-挖掘过程可以分为以下几个处理阶段:资源发现、数据抽取及数据预处理阶段、数据汇总及模式识别阶段、分析验证阶段。不同研究者从自身的领域出发,对,(-挖掘的含义有着不
7、同的理解,因此项目开发也各有其侧重点。通常人们往往将,(-挖掘与,(-上的信息检索或信息抽取等同起来,其实,它们之间是有区别的,主要体现在:(#)网络信息检索系统只能处理以关键词形式表示的简单目标,无法处理用户给出的样本形基金项目:甘肃省自然科学基金项目资助(编号:QR""#61!!6"!#6E)作者简介:邓英,硕士研究生,研究方向:数据仓库与决策支持系统,数据挖掘,网络数据库。的算法属于无监督学习的方法。关联规则的定义为:若!、"