欢迎来到天天文库
浏览记录
ID:16051374
大小:36.00 KB
页数:4页
时间:2018-08-07
《漫谈数据挖掘技术》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、漫谈数据挖掘技术李国正上海交通大学图像处理与模式识别研究所现在我们已经生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类和社会。网络之后的下一个技术热点是什么?让我们来看一些身边俯拾即是的现象:《纽约时报》由60年代的10~20版扩张至现在的100~200版;《北京青年报》也已是16~40版。现在人均日阅读时间通常为30~45分钟,只能浏览一份24版的报纸。在商业上,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,以GB计。这就是所谓的“数据爆炸但知识贫乏”的现象。大量信息在给人们带来方便的同时也带来了一大堆问题,人们开始考虑:“如何才能不被信息淹
2、没,而是从中及时发现有用的知识、提高信息利用率?”面对这一挑战,数据挖掘(DataMining)技术应运而生,并显示出强大的生命力。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。这种新式的商业信息处理技术,可以按商业既定业务目标,对大量的商业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化。从数据到信息的进化
3、过程中,每一步前进都是建立在上一步的基础上的。表中我们可以看到,第四步进化是革命性的,因为从用户的角度来看,这一阶段的数据库技术已经可以快速地回答商业上的很多问题了。进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在中国的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBCOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库、决策支持(90年代)“在中国的分部去年三月
4、的销售额是多少?据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月上海的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息数据挖掘过程在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊的实施并取得成功。很多软件供应商和数据挖掘顾问公司投提供了一些数据挖掘过程模型,来指导他们
5、的用户一步步的进行数据挖掘工作。比如SPSS公司的5A和SAS公司的SEMMA。数据挖掘过程模型步骤主要包括:1定义商业问题;2建立数据挖掘模型;3分析数据;4准备数据;5建立模型;6评价模型;7实施。1定义商业问题。在开始知识发现之前最先的同时也是最重要的要求就是了解数据和业务问题。必须要对目标有一个清晰明确的定义,即决定到底想干什么。比如想提高电子信箱的利用率时,想做的可能是“提高用户使用率”,也可能是“提高一次用户使用的价值”,要解决这两个问题而建立的模型几乎是完全不同的,必须做出决定。2.建立数据挖掘库。建立数据挖掘库包括以下几个步骤:a数据收集;b数据描述;c选择;d数据质量评估
6、和数据清理;e合并与整合;f构建元数据;g加载数据挖掘库;h维护数据挖掘库;3.分析数据。分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段。如果数据集包含成百上千的字段,那么浏览分析这些数据将是一件非常耗时和累人的事情,这时需要选择一个具有好的界面和功能强大的工具软件来协助你完成这些事情。4.准备数据。这是建立模型之前的最后一步数据准备工作。可以把此步骤分为4个部分:a.选择变量。b.选择记录。c.创建新变量。d.转换变量。5.建立模型。建立模型是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对面对的商业问题最有用。先用一部分数据建立模型,然后再用剩下的数据来
7、测试和验证这个得到的模型。有时还有第三个数据集,称为验证集,因为测试集可能受模型的特性的影响,这时需要一个独立的数据集来验证模型的准确性。训练和测试数据挖掘模型需要把数据至少分成两个部分:一个用于模型训练,另一个用于模型测试。6.评价和解释。模型建立好之后,必须评价得到结果、解释模型的价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,需要进一步了解错误的类型和由此带来的相关费用的多少。经验证有效的模
此文档下载收益归作者所有