数据挖掘技术现状及未来发展方向.doc

数据挖掘技术现状及未来发展方向.doc

ID:50774034

大小:44.38 KB

页数:10页

时间:2020-03-14

数据挖掘技术现状及未来发展方向.doc_第1页
数据挖掘技术现状及未来发展方向.doc_第2页
数据挖掘技术现状及未来发展方向.doc_第3页
数据挖掘技术现状及未来发展方向.doc_第4页
数据挖掘技术现状及未来发展方向.doc_第5页
资源描述:

《数据挖掘技术现状及未来发展方向.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据挖掘技术现状及未来发展方向数据挖掘技术现状及未来发展方向2011年06月11日  1.数据挖掘的含义  近十几年来,信息数据增长之巨大已到了令人咂舌地步,大型数据库、数据仓库被用于商业管理、政府办公、科学研究和工程开发等等。于是,我们又面临了新的问题:如何从中及时发现有用的知识,提高信息利用率?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据只能成为包袱,甚至垃圾。因此,数据挖掘技术应运而生。  数据挖掘出现于20世纪80年代末,最早是在数据库领域发展起来的,称为数据库中的知识发现(KDD,K

2、nowledgeDiscoveryinDatabase)。数据挖掘是KDD过程中的一个环节,它的历史虽然较短,但从20世纪90年代以来,发展速度很快,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义:  SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。  Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。  Handetal(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。  根据以上定义,我们可以把数据挖掘理解

3、为:数据挖掘就是从海量的数据(包括结构化和非结构化)中挖掘出隐含在其中的、事先不为人知的、潜在的、有用信息和知识的技术。这些信息是可能有潜在价值的,是用户感兴趣的、可理解、可运用的,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。  数据挖掘所能发现的知识有如下几种:  广义型知识,反映同类事物共同性质的知识;  特征型知识,反映事物各方面的特征知识;  差异型知识,反映不同事物之间属性差别的知识;  关联型知识,反映事物之间依赖或关联的知识;  预测型知识,根据历史的和当前的数据推测未来数据;  偏离型知识,揭示事物偏离常规的异常现象。  

4、所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。  2.数据挖掘的功能  数据挖掘综合了各个学科技术,有很多的功能,当前主要功能如下:  (1)分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。  (2)聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。  (3)关联规则和序列模式的

5、发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买尿布的人也有可能购买啤酒,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。  (4)预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。  (5)偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。  需要注意的是:数据挖掘的各项功能不是独立存在的,

6、在数据挖掘中互相联系,发挥作用。  3.数据挖掘应用现状  数据挖掘的应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用数据挖掘工具进行有目的的发掘分析。常见的应用案例多发生在零售业、制造业、财务金融保险、通讯及医疗服务:  (1)商场从顾客购买商品中发现一定的关联规则,提供打折、购物券等促销手段,提高销售额;  (2)保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免道德风险,减少成本,提高利润;  (3)在制造业中,半导体的生产和测试中都产生大量的数据,就必须对这些数据进行分析,找出存在的问题,提高质量;  (4)电子商务的作用

7、越来越大,可以用数据挖掘对网站进行分析,识别用户的行为模式,保留客户,提供个性化服务,优化网站设计;  一些公司运用数据挖掘的成功案例,显示了数据挖掘的强大生命力:  美国AutoTrader.com是世界上最大的汽车销售站点,每天都会有大量的用户对网站上的信息点击,寻求信息,其运用了SAS软件进行数据挖掘,每天对数据进行分析,找出用户的访问模式,对产品的喜欢程度进行判断,并设特定服务,取得了成功。  Reuteres是世界著名的金融信息服务公司,其利用的数据大都是外部的数据,这样数据的质量就是公司生存的关键所在,必须从数据中检测出错误的成分。Reu

8、teres用SPSS的数据挖掘工具SPSS/Clementine,建立数据挖掘模型,极大地提高了错误的检测,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。