欢迎来到天天文库
浏览记录
ID:37493241
大小:4.13 MB
页数:37页
时间:2019-05-24
《大数据分析关键技术与服务创新》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、大数据分析关键技术与服务创新黄哲学博士深圳大学特聘教授内容提纲1数据分析与大数据2云计算与大数据分析3关键技术与服务创新腾讯游戏与大数据分析•亿级在线用户、上百在线游戏•游戏平台系统记录每个用户在线玩游戏的详细数据,包括游戏、时间、动作、结果等,数据超TB级•分析需求:–用户行分类与预测,用户行为客户群划分,–用户挽留、用户奖励和级别提升QQ游戏是腾讯旗下自研的休闲游戏社区平台,官方数据显示,QQ游戏平台拥有百款以上的游戏品类,2亿量级活跃用户,最高同时在线人数超过800万。智能电网大数据•东莞工业的电力用户达两万多家•每十五分钟采集电压、电流、功率等数据•每月平均数据
2、量达85GB用客户电行为模式大数据分析选取客户不同维度的数据进行客户分群日周月用电模式用户行业背景用户地理信息用户电力设备信息地区宏观经济数据通过对客户分群,获取用户不同的用电模式工作日双班制,三班制,四班制周末长短周轮休夜间用电高峰行业间用电模式比较不同地区不同行业用电模式比较节假日及用电模式趋势预测客户分群三班型两班型稳定型其他类型三班制用电行为聚类高强度加班模式低强度加班模式什么是大数据对数据的使用者来讲,如果数据集超出了使用者所拥有的信息处理和分析的能力,就给使用者带来了大数据问题大数据的3V特征Volume大数据的特点并不只是数据规模
3、大数据规模大Value价值VelocityVariety数据变化数据快数据属性复杂大数据的价值(Value)美国医疗保健欧洲公共部门管理全球个人定位数据每年2500亿欧元1000亿+的服务供应商收入每年产值达3000亿美金每年生产率增长约0.7%为终端用户带来高达7000亿每年生产率增长约0.7%美的价值美国零售业制造业净利率增长可能高达60%+最多可节省50%的产品研发、每年生产率增长0.5-1.0%组装成本最多可节约7%的营运资金未来大数据的产业规模将会至少以万亿美元来进行衡量,大数据将会给信息技术领域带来一个新的增长点。大数据产业链传统应用领域
4、零售通信金融制造互联网智能电网电子商务智慧城市现代物流新型应用领域大数据带来的挑战内容提纲1数据分析与大数据2云计算与大数据分析3关键技术与服务创新挑战性科学问题没有有效的数据集病人健康1.Patient成就不能进行有效Information医疗数据的综合数据分析数据融合(fusion)AccesstoDiverseExpressionArraysHeterogeneous数据集成(varioustissues)Hospitalevents....admission,DistributedDatasurgery,recovery,discharge(integratio
5、n)Personal挑战genomicsX-rays,MRI,mamograms,AnalysisetclabnotesClinicalRecord挑战性科学问题成千上万个属性f1f2f3f4f5…12超高维问题1.混合数据类型2.缺省值/噪声3.相关性问题n-44.Unbalance5.Subspacepropertyn-36.Uninformativenessn-2n-1n百万以上甚至超亿个记大数据集的挑战(BigDataMatrix)录云计算与大数据•云计算是一种新的大规模分布式计算模式–通过网络和资源虚拟技术,实现计算及存储资源集中管理,面向用户提供服务•云计算
6、可以解决目前计算机使用的诸多问题,是计算技术发展的一个新的里程碑传统计算机的问题云计算的优点•使用成本高•成本低•资源分散•易于普及•资源不足•可扩展能力高•资源浪费•节能•高能耗•环保•环境污染云计算大数据处理的核心技术MapReduce运行时系统虚拟文件系统编程模型算法编程程序运行数据划分•Map和Reduce两•负载平衡•GFS(Google)个基本操作•任务调度•HDFS(Hadoop)•大规模分布计算•容错•可扩展性MapReduce编程模型程序写成Map和Reduce两步运算1.Map统计单个文本词频用户编程2.Reduce综合所有文本的词频主节点(Map)
7、(Reduce)节点文件输出文件节点文件节点文件节点输出文件节点文件划文件划分Map运算Reduce运算结果输出MapReduce编程特点K-means算法Pipeline模式MRMRMRMRMRMRMRMRMRMRMRMR?????输入输出数据Map过程Reduce过程是聚类结否果收敛将对象分配给与其重新计算?最相似的聚类聚类中心点MapReduce大数据随机森林算法Layer宽度优先、大规模分层建树策略内容提纲1数据分析与大数据2云计算与大数据分析3关键技术与服务创新云计算大数据分析平台—以区域性智能数据中心及高速互联网为基础设施,—
此文档下载收益归作者所有