大数据的误区数据统计≠大数据.docx

大数据的误区数据统计≠大数据.docx

ID:58862225

大小:107.06 KB

页数:10页

时间:2020-09-22

大数据的误区数据统计≠大数据.docx_第1页
大数据的误区数据统计≠大数据.docx_第2页
大数据的误区数据统计≠大数据.docx_第3页
大数据的误区数据统计≠大数据.docx_第4页
大数据的误区数据统计≠大数据.docx_第5页
资源描述:

《大数据的误区数据统计≠大数据.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据的误区:数据统计≠大数据什么是大数据?百度百科对大数据的定义是这样的:大数据(bigdata)或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。个人认为Gartner的定义更为贴切。“新处理模式”是一个很关键的词汇,这也是我所理解的“大数据”区别于传统统计分析等最关键的特征之一。这个所谓的“新处理模式”有两层含义:1由于海量的数据,

2、需要更高效的存储和处理技术,Hadoop成为了大数据时代的标志;2如果你认为大数据就等于Hadoop,那就大错特错了。Hadoop只是大数据时代的一个必要条件,大数据还有一个明显的标志是数据挖掘和人工智能的紧密结合。这也是我理解的“大数据”与现在很多所谓“大数据”项目最明显的区别之一。除了上面的“新处理模式”上的区别,个人认为还有一个最主要的区别是:数据统计分析是基于已有数据的纵向归类,而大数据是基于对已有海量数据的处理,对还未产生的数据作出预测和推荐。数据统计是已经发生的事情,而大数据往往被用于还没有发生的事情预测或者推荐中。预测和推荐是如何实现的目前主要的推荐算法大致

3、可以分为两类。一个是基于行为,一个是基于内容。当然,针对不同的领域,不同的预测和推荐的对象,又会有十余种算法。这就不是本文展开的内容了。基于行为的分析,顾名思义,即对用户在互联网、移动互联网留下的“痕迹”,即浏览、点击、收藏、购买、二次购买的分析,得出未来会选择购买的预测和推荐结果。基于行为的分析,属于群体智慧,综合利用群体用户的行为偏好。用户之间会相互影响,更加符合现实世界中的用户行为。图1、电商基于行为的推荐漏斗算法基于内容的分析,包括对文字、图片、音频、视频等信息的分析,得出预测和推荐的结论。内容的“基因”和用户的偏好相匹配,最有代表的是潘多拉的音乐推荐项目,其将曲

4、库中所有歌曲都由400多位专家打上标签,然后建立个人与音乐的联系,从而完成音乐的推荐。内容的分析只针对个人,与用户之间关系无关。大数据到底能做什么现在谈这个问题可能会让大家笑话,似乎所有人都知道大数据能干这个,能干那个,最后连我们自己都觉得可笑。大数据已经都不是被“妖魔化”了,是“娱乐化”。大数据似乎是个离我们忽远又忽近的事物了,变得不真实起来。好吧,我还是结合从业经历来说说大数据“解决过什么问题”吧:简单地来说,大数据可以帮我们解决决策和选择的问题。天气预报就是一个最古老而且众所周知的预测。你可以根据预报来决定明天穿什么衣服,是否要带雨伞,等等;近两年来,大数据被应用到

5、影视制片行业,基于对观众偏好的分析,去预测、设计观众喜欢的剧情,找观众喜爱的演员出演相关的角色,甚至可以去预测票房。这些所有的预测都是基于数据的基础上,经过一定的模型处理,得到接近真实的结论。从某种程度上给决策者决策的依据,比如《纸牌屋》和《星星》。大数据还有一个重要的作用,就是解决人们的“选择”问题。别笑,无论你的年龄、性别、教育背景,人们目前都面临着前所未有的选择问题。讲的学术一些,这是由于“长尾效应”导致的问题;讲得通俗一些,就是由于日益增多的可选择的对象和我们自身的处理能力之间的矛盾。科技的进步让人变得更懒,也就是我们自身的处理能力降低,无论是主观的还是客观的。而

6、可被选择的对象却在日益增多。从纷繁复杂的商品(电商),到海量曲库中的乐曲;从婚恋网站的男女朋友,到交通管理的信号灯。基于人工智能下的大数据,就是可以使人们“变懒”的一个手段。基于你的历史行为,判断出你可能的喜好,乃至需求,将最佳结果,推荐给你。这就是大数据,她是你的贴心管家,或者说是最懂你的朋友。一个最经典的案例是沃尔玛曾经做过的“啤酒”和“尿布”调研:沃尔玛在研究中发现,一类顾客经常在购买尿布的同时也购买啤酒。尿布跟啤酒自然是毫无关联的两个品类的商品,从个人经验上来看,根本想不到二者的联系。后来发现,这是一类社会现象所导致的。美国有很多年轻夫妇,尿布用完后,女主人在家带

7、孩子,而男主人就去超市买尿布。买完尿布之后,男主人通常会顺带着买些啤酒。上述例子说明,数据经常可以让你发现看似不合理不合逻辑但却存在,并且经常发生的现象。再举个例子,北京的交通拥堵是地球人都知道的事情。尤其是早晚高峰,这已经不需要预测了。但如果根据历史交通数据,再经过数学模型,计算出一个全北京最佳的交通信号灯管理系统,这就属于大数据的范畴了。图2、出租车每天的分布图这也是我眼中大数据主要与普通的数据统计分析最大的不同:数据统计可以帮助你发现疾病,但大数据可以不但帮助你发现,且帮助你治疗疾病。大数据绝不是“噱头“,我们在帮助某运

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。