欢迎来到天天文库
浏览记录
ID:25670367
大小:134.50 KB
页数:10页
时间:2018-11-22
《当数据遇到挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、当数据遇到挖掘SAS软件有限公司资深顾问张磊博士 信息化的浪潮给全世界带来的翻天覆地的变化。当你使用信用卡刷卡消费的时候,刷卡交易的信息和购物情况已经进入了银行和商场的数据库;当你拿起手机拨打电话的时候,话单的信息已经进入了电信运营商的数据库;当你在医院挂号就医的时候,门诊和处方的信息已经进入了医院的数据库;当你使用公交卡乘车的时候,购买车票的信息也已经进入了公交公司的数据库。各种的情况都在表明,信息无处不在,而且每时每刻都有大量新的信息在产生,如同上下班高峰期的人流,拥挤而又嘈杂。这还只是一幅幅静止的画面,如果让我们以时间为胶片,把这些画面连接起来,更会
2、真切地发现在最近的二三十年内,企业中积累的各种数据已经远远超乎我们的想像。就像观看一部科幻式的灾难片,日积月累的数据如同因全球变暖而不断上升的海平面,一步步逼近我们生存的陆地,那些我们曾经熟悉的大楼、公园、道路,则在一个个沉没……是否觉得有些危言耸听?但是对于企业来说,这并不是一个神话。让我来举一个例子,你就可以看到数据量的急速增长给企业带来多么大的困扰和改变。萨姆·沃尔顿1918年出生于美国俄克拉何马的金菲舍镇,是一个土生土长的农村人,他7岁就开始送牛奶和报纸,另外还饲养兔子和鸽子出售,学费与生活费用大部分全靠自己打工筹措,取得了萨姆大学的商学士学位。1
3、945年他退伍后,萨姆在阿肯色州的本顿维尔小镇开了一家廉价商店,这是一家典型的旧式杂货店,50英尺宽,100英尺深,面临前大街,位于市中心,向外远望看得到铁路。商店里有现金收银机,整个店堂每个柜台后面都有供店员走动的通道,店员们坐等着顾客上门。创业之初,客户非常少,萨姆可以记住那些熟客的名字,知道他们喜欢什么样的杂货商品,常用的是哪些品牌,什么商品最好卖,下个月应该进什么货等等。此时他对数据的处理分析只需通过纸笔就可以了。经过几十年的锲而不舍的奋斗,萨姆的连锁店已经遍布全球,2006年的营收高达3511亿美元,超过美国石油巨头埃克森美孚公司,占据美国“财富
4、”杂志世界五百强的榜首。萨姆的公司名字就叫做“沃尔玛”(WalMart)。作为全球第一大的零售业巨头,今天的规模已远非当年创业时可比了,遍布14个国家,7131家连锁店,近200万员工,上亿的客户。每天大量的交易信息都在源源不断地传输到公司总部的数据仓库,数据容量超过了数百TB。如何从信息的海洋中发现营销机会,找到有利可图的客户,调整货物的摆放位置,协调物流的计划和调度等等问题,已经不能简单地根据人的经验、通过查看报表或者手工分析来获取答案,人们需要更加依赖于计算机的处理能力,需要更高级的分析技术来协助从海量数据中发现潜在的规律。这种高级的分析技术之一就是
5、数据挖掘,而数据挖掘领域里最典型的案例就是“啤酒与尿布”的故事。 1、三个小故事故事一、啤酒与尿布世界零售连锁企业巨头沃尔玛拥有世界上最大的数据仓库系统之一,里面存放了各个门店的详细交易信息。为了能够准确了解顾客的购买习惯,沃尔玛利对顾客的购物行为进行了购物篮分析,想知道顾客经常一起购买的商品有哪些,结果他们有了意外的发现:“跟尿布一起购买最多的商品竟是啤酒!”这是数据挖掘技术对历史数据进行分析的结果,它符合现实情况吗?是否是一个有用的知识?是否有利用价值?于是,沃尔玛派出市场调查人员和分析师对这一挖掘结果进行调查分析。经过大量实际调查和分析,揭示了一个隐
6、藏在“尿布与啤酒”背后的美国人的一种行为模式:一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。既然尿布与啤酒一起被购买的机会很多,于是沃尔玛就将尿布与啤酒并排摆放在一起,结果是尿布与啤酒的销售量双双增长。按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 故事二、犯罪的根源格洛斯特郡是英格兰西部的一个郡,大约有五
7、十多万人口。在有一段时间内,发生了多起抢劫案,民众不再感觉到安全,对郡警察局的舆论压力也陡然增加了,强烈要求及时破获这些案件,并避免案件的进一步发生。警方一方面在加快破案的同时,也在努力思考怎么样才可以降低发案率。按照传统的做法,一般会采取这样的措施:锁定抢劫案的多发地区,加派警力进行巡逻,对行为异常的人员加强盘查等等。然而,格洛斯特郡警察局发现,这些措施的收效甚微,发案率依然居高不下,因为抢劫案的发案地点并不集中,分散在多个不同的街区,这让巡逻警力的安排显得捉襟见肘,难以全面顾及。此时,来自警察局内部的分析系统却有了新的发现。系统中保存了多年的案件和案犯
8、的卷宗信息,通过利用数据挖掘等分析技术,揭示出最近这段时间的抢劫犯
此文档下载收益归作者所有