资源描述:
《大数据时代的科学数据战略(卢东明)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、大数据时代的列式数据库卢东明Sybase软件(中国)有限公司技术总监新浪微博:Sybase卢东明•1992年加入SybaseChina•1994-2006年在硅谷13年,效力Sybase公司,巴克莱资产管理公司(BGI)•2006年回到SybaseChina任技术总监•新浪微博:Sybase卢东明•微群版主:“列式数据库”,“CEP”2 – Sybase Confiden.al – October 22, 2011 Agenda•大数据有多“大”•大数据怎么“数”•大数据何以“据”3 – Sybase Confiden.al – October 22, 20
2、11 什么是BigData:亚马逊新体验1,当日推荐2,其他搜索人后来买了那些东西4 – Sybase Confiden.al – October 22, 2011 4 什么是BigData:亚马逊购物新体验3,希望购买列表6,对已购买产品作评价4, 购买单5,其他类似购物者还买了什么5 – Sybase Confiden.al – October 22, 2011 5 社交媒体–大数据的下一波挑战Twitter和Tweets•Twitter有2,000,000,000注册用户•每天新注册用户450,000•用户每周更新10亿条Tweets=将近1.8亿条每
3、天=138888条每分=1650条每秒•有将近52%的用户每天更新消息•5%的用户制造了75%的内容•24%的用户每天会查看好几次Twitter•下午5点时发推最容易被转发•Twitter上每天有16亿将搜索,每秒18000次6 – Sybase Confiden.al – October 22, 2011 社交媒体–大数据的下一波挑战使用方式•40%的Tweets来自移动设备•50%的用户使用超过1个平台接入Twitter,比如通过手机,iPad,家里电脑等•81%用户关注不到100人,150万用户关注超过500人•Twitter上注册的第三方应用有超过
4、100万个,每1.5秒产生一个新应用•61%的Tweets是英语7 – Sybase Confiden.al – October 22, 2011 社交媒体–大数据的下一波挑战用户分布•70%的Twitter用户是非美国用户•46%的用户是男性,54%的用户是女性•53%Twitter用户没有小孩,有小孩的用户比例是47%•英国网民11%使用Twitter•30%Twitter用户的家庭收入超过10万美元8 – Sybase Confiden.al – October 22, 2011 社交媒体–大数据的下一波挑战Twitter和品牌•43%的Twitter
5、用户关注一个品牌(为了获取打折等信息)•75%的Twitter用户有可能从自己关注的品牌那里购买商品•67%的用户愿意将自己关注的品牌帐户推荐给其他人•一条推广的Tweet一天大概要花费120000美元•财富100强公司里有88家每天在Twitter上更新新闻•Twitter估值达到了80亿美元9 – Sybase Confiden.al – October 22, 2011 数据库市场的细分格局传统行式数据库内存数据库列式数据库更多事务处理大数据、复杂分析OLTP交易OLAP分析系统业务10 – Sybase Confiden.al – October 2
6、2, 2011 列式数据库的优秀案例美国税务局(IRS):全美国所有报税人7年报税记录(及原始文档)(15亿条记录):2006年审计数量为2000年的3倍2006年审计中收缴税款创下记录,达到592亿美元,上升75%!190TB数据仓库(压缩后数据量)六到八周加载一年的数据[15到20TB]--四个小时!花旗银行:SybaseIQ保存6年所有交易记录,HR数据及文档美国证监会(SEC):分析数据仓库以及非结构化数据(灾难备份点)美国航空公司(AmericanAirlines):使用SybaseIQ节约了5百万美金ComScore:全球第
7、一大互联网监测公司:1800亿URL中国农业银行,国家电网,铁道部,中国移动11 – Sybase Confiden.al – October 22, 2011 列式数据库揭开云计算时代12 – Sybase Confiden.al – October 22, 2011