大数据分析的光荣与陷阱

大数据分析的光荣与陷阱

ID:8136315

大小:781.94 KB

页数:8页

时间:2018-03-06

大数据分析的光荣与陷阱_第1页
大数据分析的光荣与陷阱_第2页
大数据分析的光荣与陷阱_第3页
大数据分析的光荣与陷阱_第4页
大数据分析的光荣与陷阱_第5页
资源描述:

《大数据分析的光荣与陷阱》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、北京大学互联网金融研究中心工作论文系列IIFWorkingPaperSeriesNO.IIFWP2015001(总第1期)大数据分析的光荣与陷阱——从谷歌流感趋势谈起1沈艳2015年10月27日摘要:本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大、算法演化、看不见的动机导致数据生成机制变化等陷阱,以及对我国大数据产业发展的借鉴。本文认为,为健康发展大数据产业,我国需要防范大数据自大风险、推动大数据产业和小数据产业齐头并进,并强化提高大数据透明度、审慎评估大数据质量等方面的努力。说明:北京大学互联网金融研究中心是由北京大学中国社会科学调查中心、上

2、海新金融研究院、蚂蚁金服集团共同发起成立的研究平台,专注于互联网金融领域的学术和政策研究。本工作论文是未曾公开发表的论文。文中观点仅代表作者本人,不代表本中心。未经许可,谢绝任何形式的转载和复制。1沈艳,北京大学互联网金融研究中心高级研究员、北京大学国家发展研究院教授。1大数据分析的光荣与陷阱——从谷歌流感趋势谈起沈艳【摘要】本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大、算法演化、看不见的动机导致数据生成机制变化等陷阱,以及对我国大数据产业发展的借鉴。本文认为,为健康发展大数据产业,我国需要防范大数据自大风险、推动大数据产业和小数据产业齐头并

3、进,并强化提高大数据透明度、审慎评估大数据质量等方面的努力。一、谷歌流感趋势:未卜先知?“谷歌流感趋势”(GoogleFluTrends,GFT)未卜先知的故事,常被看做大数据分析优势的明证。2008年11月谷歌公司启动的GFT项目,目标是预测美国疾控中心(CDC)报告的流感发病率。甫一登场,GFT就亮出十分惊艳的成绩单。2009年,GFT团队在《自然》发文报告,只需分析数十亿搜索中45个与流感相关的关键词,GFT就能比CDC提前两周预报2007-2008季流感的发病率。也就是说,人们不需要等CDC公布根据就诊人数计算出的发病率,就可以提前两周知道未来医院因流感就诊的人数了。有了

4、这两周,人们就可以有充足的时间提前预备,避免中招。多少人可以因为大数据避免不必要的痛苦、麻烦和经济损失啊。此一时,彼一时。2014年,Lazer等学者在《科学》发文报告了GFT近年的表现。2009年,GFT没有能预测到非季节性流感A-H1N1;从2011年8月到2013年8月的108周里,GFT有100周高估了CDC报告的流感发病率。高估有多高呢?在2011-2012季,GFT预测的发病率是CDC报告值的1.5倍多;而到了2012-2013季,GFT流感发病率已经是CDC报告值的双倍多了。这样看来,GFT不就成了那个喊“狼来了”的熊孩子了么?那么不用大数据会如何?作者报告,只用两

5、周前CDC的历史数据来预测发病率,其表现也要比GFT好很多。2013年,谷歌调整了GFT的算法,并回应称出现偏差的罪魁祸首是媒体对GFT的大幅报道导致人们的搜索行为发生了变化。Lazer等学者穷追不舍。他们的估算表明,GFT预测的2013-2014季的流感发病率,仍然高达CDC报告值的1.3倍。并且,前面发现的系统性误差仍然存在,也就是过去犯的错误如今仍然在犯。因为遗漏了某些重要因素,GFT还是病得不轻。为什么传说中充满荣光的大数据分析会出现如此大的系统性误差呢?从大数据的收集特征和估计方法的核心,我们可以探究一二。二、新瓶装旧酒:过度拟合大数据时代的来临,为数据收集带来了深刻变

6、革。海量数据、实时数据、丰富多样的非结构数据,以前所未有的广度进入了人们的生活。但是不变的是,在统计分析方法上,2数据挖掘(Datamining)仍然是统计分析的主要技术。而数据挖掘中最引人注目的过度拟合(overfitting)问题,由于下文提到的各类陷阱的存在,远远没有解决。我们先用一个故事来解释何为过度拟合。假设有一所叫做象牙塔的警官学校致力于培养抓小偷的警察。该校宣称,在他们学校可以见到所有类型的普通人、也能见到所有类型的小偷;到他们学校来学习就能成为世界上最厉害的警察。但是这所学校有个古怪,就是从不教授犯罪心理学。象牙塔的教学方式是这样的:将人群随机分为十组,每组都是既

7、有普通人又有小偷。学员可以观察到前九组所有人,也知道谁是普通人谁是小偷。学员要做的是,根据自己从前九组中了解到的小偷特征,从第十组中找出小偷。比如学员从前九组观察到小偷更喜欢在给孩子买尿布的时候也买啤酒,那么在第十组观察到有人在买尿布时也买啤酒,就作为一个嫌疑条件。完成这个过程之后,学校再将人群打散重新分成十组,如此循环往复,之后学校进行测试。测试方式就是再次将人群随机分为十组,看谁能最快最准根据前九组的信息找出第十组的小偷。冠军即象牙塔最棒警察,可以派到社会上抓小偷了。一段时间

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。