欢迎来到天天文库
浏览记录
ID:44049527
大小:143.01 KB
页数:14页
时间:2019-10-18
《数据挖掘研究综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据挖掘研究综述1•数据挖掘的由来1.1网络技术的高度发展1.2数据爆炸但知识贫乏:激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。1.3支持数据挖掘技术的技术基础:海量数据搜集,强大的多处理器计算机,数据挖掘算法。1.4从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁
2、带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBCOracle、Sybase、Informix、IBM、MicrosoftOracIe、Sybase、InformixvIBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库;决策支持(90年代)"在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?"关系数据库(RDBMS),结构化查询语言(SQL),ODBCOraclevSy
3、base、Informix、IBM、MicrosoftOracIe、Sybase、InformiXvIBM、Microsoft在各种层次上提供回溯的、动态的数据信息数据挖掘(正"下个月波士顿的销售会怎高级算法、多处理器计算机、海量数据库Pilot、LockheedxIBM、提供预测性的信息在流行)么样?为什么?”SGI、其他初创公司2.数据挖掘的定义什么是数据挖掘?下面是一些“前人”对数据挖掘的定义:(1)“挖掘”出数据中隐藏的模式,趋势,关系的过程(Groth);(2)通过自动或半自动的方式在海量数据中发现有用的模式,规则
4、的过程(Beryy&Linoff);(3)分析普通的数据(通常是海量的)来发现数据之间比较稳定地关系,以易于理解的方式将数据总结出来向数据所有者提供有价值的决策支持。(Hand,ManniIa&Smyth);(4)在不需要人或很少地手工干预下通过可行地计算机技术来挖掘开采数据,对数据进行分析(Wegman);(5)从大量的数据库中抽取出此前还没发现的有效实用地的信息,并且此后使用此信息来帮助制定关键的商业决策的过程(Cabenaetal);2.1数据挖掘在技术上的定义数据库中的数据挖掘定义:在可接受的计算效率限制下,应用数据
5、分析和发现算法,从数据库的大量数据中提取正确、新颖、潜在有用和最终可理解模式的过程。数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。理解这个定义应注意:(1)数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;(2)原始数据可以是结构化,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。(3)发现知识的方法可以是数
6、学的,也可以是非数学的;可以是演绎的,也可以是归纳的。(4)发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。2.2商业角度定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。2.3数据挖掘与传统分析方法的区别数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的
7、本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识;数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。数据挖掘的特点有:(1)处理的数据规模十分巨大。(2)查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求。⑶由于数据变化迅速可能很快过时,因此需要对动态数据做出快速反应,以提供决策支持。(4)主要基于大样本的统计规律,其发现的规则不一定适用于所有数据。与数据挖掘相似的术语:数据库中知识挖掘、知识提取、数据/模式分析、数据考古和数据捕捞。2.4数据挖掘的研究对象数据挖掘中要分析的数据的
8、范围非常广泛,从自然科学、社会科学、商业数据,到科学处理产生的数据或卫星观测得到的数据。它们的数据表示形式也是各种各样,有关系型,也有层次型、网状型。由于关系数据库应用广,具有规整统一的组织结构,规范通用的查询语言,特别是关系之间及属性之间具有平等性的优点。因此,目前KDD的主要对象仍然是
此文档下载收益归作者所有