欢迎来到天天文库
浏览记录
ID:51306477
大小:360.50 KB
页数:18页
时间:2020-03-21
《数据挖掘技术.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第一课数据挖掘技术的由来<•1.1网络之后的下一个技术热点心1.2数据爆炸但知识贫乏1.3支持数据挖掘技术的基础承1.4从商业数据到商业信息的进化1.5数据挖掘逐渐演变的过程1.1网络Z后的下一个技术热点我们现在已经生活在一个网络化的时代.通借、计算机和网络技术正改变看整个人类和社会。如果用芯片集成度來衡虽微电子技术,用CPU处理速度來衡量计算机技术,用信道传输速率來衡量通信技术,那么糜尔定律告诉我们,它们都是以每18个丿J翻-•番的速度在增长,这一势头已经维持了十多年。在美国,广播达到5000万户用了38年;电视用了13年;Internet拨号上网
2、达到5000万户仅用了4年。全球1P网发展速度达到每6个月翻-番,国内惜况亦然。1999年初,中倒上网用户为210万,现在已经达到600万。网络的发展导致经济全球化,在1998年全球产值排序前100名中,跨国企业占了51个,国家只占49个,有人提出,对待--个跨国企业也许比对待一个国家还要垂要。在新世纪钟声刚刚敲响的时候,回顾往昔,人们不仅耍问:就推动人类社会进步而言,历史上能与网络技术相比拟的是什么技术呢?有人甚至提出要把网络技术与火的发明相比拟。火的发明区别了动物和人,种种科学技术的靈人发现扩展了向然人的体能、技能和智能,而网络技术则大犬提高了人
3、的生存质量和人的索质,使人成为社会人、全球人。现在的问題是:网络Z后的下一个技术热点是什么?讣我们來看一些身边俯拾即是的现象:《纽约时报》由60年代的10〜20版扩张至现在的100-200版,最高曾达1572版:《北京讶年报3也已是16〜40版:市场营销报已达100版。然而在现实社会中,人均日阅读时间通常为30〜45分钟,只能浏览-份24版的报纸。大疑信息在给人们带来方便的同时也帶來了一大堆问题:第一是信息过站难以消化:第二是信息真假难以辨识;第三是信息安全难以保证:第四是信息形式不-•致,难以统一处理。人们开始提出--个新的口号:“要学会抛弃信息”
4、。人们开始考虑:“如何才能不彼信息淹没,而是从中及时发现有用的知识、捉高信息利用率?”而对这-挑战,数据开采和知识发现(IWKD)技术应运而生,并显示岀强大的生命力。1.2数据爆炸但知识贫乏另一方而,随看数据库技术的迅速发展以及数据库管理系统的广泛应用,人们枳累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的求入、杳询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现冇的数据预测木來的发展趋势。缺乏挖掘数据背后隐诫的知识的手段,导致了“数据爆炸
5、但知识贫乏”的现象。1.3支持数据挖掘技术的基础数据挖删技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数辦是存储在计算机的数据库中的.然后发展到可对数据库进行查甸和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了-个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据Z间的潜在联系,从而促进信息的传逊。现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术己经发展成熟,他们是:海虽数据搜集强大的多处理器计算机数据挖掘算法Fricdmantl997]列举了四个主要的技术理由激
6、发了数据挖掘的开发、应用和研究的兴趣:超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录:先进的计算机技术,例如更快和更大的计算能力和并行体系结构;对巨大虽数据的快速访问;对这些数据应用将滋的统计方法计算的能力。商业数抑:库现在正在以一个空前的速度增长,并且数据仓库正在广泛地应用于备种行业;对计算机换件性能越來越高的要求,也可以用现在已经成熟的并行多处理机的技术來满足:另外数据挖掘算法经过了这10多年的发展也已经成为一种成熟.稳定,且易于理解和操作的技术。1.4从商业数据到商业信息的进化从商业数辦到商业信息的进化过机中,每一步前进都是建
7、立在上一步的基础上的。见下表。表中我们可以看到,第四步进化是革命性的,因为从川户的角度來看,这一阶段的数据库技术已经可以快速地回答商业上的很多问题了。进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销佶额是多少?”关系数据库(RDBMS),结构化査询语言(SQL),ODBCOracle.Sybase、Informix^IBM、Microsol'tOracle^SybasexInformixxIBM、Mi
8、crosoft在记录级提供历史性的、动态数据信息数据仓库:决策支持(90年代)“在新英格兰的分部去年三月的销
此文档下载收益归作者所有