欢迎来到天天文库
浏览记录
ID:39171538
大小:62.01 KB
页数:12页
时间:2019-06-26
《带您认识大数据》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、带您认识大数据本刊编辑部“大数据”的由来2008年9月4日,英国《自然》杂志刊登了一个名为“BigData”的专辑,首次提出大数据概念,该专辑对如何研究PB级容量的大数据流,以及目前正在制订的、用以最为充分地利用海量数据的最新策略进行了探讨。2011、2012年达沃斯世界经济论坛将大数据作为专题讨论的主题之一,发布了《大数据、大影响:国际发展新的可能性》等系列报告。2011年以来,中国成立了大数据委员会,研究大数据中的科学与工程问题,科技部《中国云科技发展“十二五”专项规划》和工信部《物联网“十二五
2、”发展规划》等都把大数据技术作为一项重点予以支持。业界普遍认为,2013年是中国“大数据元年”。“大数据”的内涵【定义】继物联网、云计算之后,“大数据”已迅速成为大家争相传诵的热门科技概念。“大数据”作为信息社会发展的一个新生事物,目前尚处在逐渐被认识、被应用的初始阶段,无论是学术界还是IT行业对大数据的理解各有侧重,尚未形成一套完整的理论体系。全球最具权威的IT研究与顾问咨询公司Gartner将“大数据”定义为“需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的
3、信息资产”。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。《互联网周刊》则认为,“大数据是通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力”。国家信息中心有关专家将“大数据”广义地界定为,“我国现代信息化进程中产生的和可被利用的海量数据集合,是当代信息社会的数据资源总和,是信息时代的全数据,既包括互联网数据,也包括政府数据和行业数据。”【属性】随着大数据的发展,大数据的内涵已不仅仅局限于技术维度
4、,而是在演变过程中不断扩展,形成了一个语义更加丰富、维度更加多元的综合性的概念。大数据是一类海量信息的数据集,是一项对海量数据进行快速处理并获取有价值信息的技术,更是一种新的认知世界和改造世界的思维方式和能力。大数据开启了一个以数据为基本元素的、以数据为战略资产的时代,在大数据时代掌握了数据就意味着拥有了核心竞争力。大数据时代让社会朝着更加个性化、民主化、自由化、开放化的方向发展。1.“4V”特征大数据在诞生之初仅仅是一个IT行业内的技术术语,业界通常用4个V(即Volume、Variety、Val
5、ue、Velocity)来概括大数据的内容特征。一是数据体量巨大(Volume)。国际数据公司(IDC)的研究结果表明,截至2012年,人类生产的所有印刷材料的数据量是200PB。IBM研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。【注:计算机存储单位一般用Byte、KB、MB、GB、TB、PB、EB、ZB、YB表示,它们之间的换算关系是:
6、1KB=1024B,1MB=1024KB,1GB=1024MB,1TB=1024GB……以此类推。】二是数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。链接——大数据时代,物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及各种各样的传感器,无一不是数据来源或者承载的方式。新出现的数据类型有以
7、下几类:1、以模拟形式存在的记录,或者以数据形式存在但是存贮在本地,不是公开数据资源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。2、移动互联网出现后,移动设备传感器收集的大量的用户点击行为数据。3、电子地图产生的大量的数据流数据。这些数据与传统数据反映一个属性或一个度量值相区别,代表着一种行为、一种习惯。4、大量的互联网用户创造出海量的社交行为数据,反映出人们行为特点和生活习惯。5、电商户崛起产生的大量网上交易数据,包含支付数据、查询行为、物流运输、购买喜好、点击顺序、评价行为
8、等,其实质是信息流和资金流数据。6、互联网搜索引擎上用户的搜索行为和提问行为聚集的海量数据。三是价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。四是处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到
此文档下载收益归作者所有