大数据集成方案OracleHadoopRHadoopHadoop数据集成实战案例.pdf

大数据集成方案OracleHadoopRHadoopHadoop数据集成实战案例.pdf

ID:53005705

大小:1.10 MB

页数:35页

时间:2020-04-11

大数据集成方案OracleHadoopRHadoopHadoop数据集成实战案例.pdf_第1页
大数据集成方案OracleHadoopRHadoopHadoop数据集成实战案例.pdf_第2页
大数据集成方案OracleHadoopRHadoopHadoop数据集成实战案例.pdf_第3页
大数据集成方案OracleHadoopRHadoopHadoop数据集成实战案例.pdf_第4页
大数据集成方案OracleHadoopRHadoopHadoop数据集成实战案例.pdf_第5页
资源描述:

《大数据集成方案OracleHadoopRHadoopHadoop数据集成实战案例.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Hadoop数据分析平台第11周2013.01.08DATAGURU专业数据分析网站黄志洪法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被追究法律和经济责任。课程详情访问炼数成金培训网站http://edu.dataguru.cn2013.01.08DATAGURU专业数据分析网站黄志洪2完全分布式模式的安装和配置配置hosts文件建立hadoop运行账号配置ssh免密码连入下载并解压hadoop安装包配置nam

2、enode,修改site文件配置hadoop-env.sh配置masters和slaves文件向各节点复制hadoop格式化namenode启动hadoop用jps检验各后台进程是否成功启动2013.01.08DATAGURU专业数据分析网站黄志洪3Hadoop大集群实施设备选型是否使用虚拟机?使用DNS代替hosts文件使用NFS实现密钥共享利用脚本复制hadoop——awk技巧2013.01.08DATAGURU专业数据分析网站黄志洪4DNSLinux下使用bind2

3、013.01.08DATAGURU专业数据分析网站黄志洪5NFS网络文件系统《Hadoop权威指南》第266页2013.01.08DATAGURU专业数据分析网站黄志洪6用awk生成脚本的技巧强大的武器:awk怎样使用awk生成脚本的技巧2013.01.08DATAGURU专业数据分析网站黄志洪7云计算是什么?相关软硬件厂商(争先恐后状):我的产品就是云计算不相关软硬件厂商(争风吃醋状):云计算不就是一根网线加上计算机嘛政府官员:云计算就是超级计算机广大围观者:云计算就是集群?

4、OrHadoop?OrOpenstack?OrVmware?Or…?网格和云计算有什么差别?2013.01.08DATAGURU专业数据分析网站黄志洪8云计算是服务模式和拥有模式的革命云计算是服务模式:它不是新技术,更准确来说不应称之为技术,它是在一些关键技术日趋成熟后催生的一种新的服务模式云计算通过集中拥有,使到用户能得到其本身无法得到的服务,或是以更低成本获得相同的服务,降低拥有成本是云计算的核心价值之一云计算项目,必先考虑服务模式和盈利模式的问题,其次才是投资和技术2013.01.0

5、8DATAGURU专业数据分析网站黄志洪9云计算的特征自我服务按使用量计费弹性架构可定制化2013.01.08DATAGURU专业数据分析网站黄志洪10云计算怎样降低成本?提高软硬件使用率集中管理降低能耗节约维护人员费用2013.01.08DATAGURU专业数据分析网站黄志洪11能耗是日益严重的问题2010年,美国计算机耗电量占总耗电量15%,预计到今年将翻一番服务器在空转状态时的耗能,依然达到满载耗能的50%现有关键计算硬件并非绿色设计,单位能源产生的计算能力成为重要指标

6、。据某研究机构测试CPU降频5%,计算时间增加到原先1.04倍,但耗电降低50%2013.01.08DATAGURU专业数据分析网站黄志洪12云计算模式也会增加成本安全风险可用性风险绑架风险2013.01.08DATAGURU专业数据分析网站黄志洪13盈利模式是云计算的核心问题云计算领域的现状是项目找资金,资金找项目,折中点是有创意的盈利模式互联网公司是云计算的先行者技术相对于服务模式和盈利模式并不是门槛2013.01.08DATAGURU专业数据分析网站黄志洪14云计算的形态私有

7、云公有云混合云2013.01.08DATAGURU专业数据分析网站黄志洪15目前流行的开源云计算解决方案HadoopOpenstack2013.01.08DATAGURU专业数据分析网站黄志洪16Hadoop在云计算中的用途分布式文件系统提供的低单位成本的巨大的存储能力,高冗余度的可靠性Map-Reduce提供快速并行计算能力,这种能力可以随着节点数的增加线性递增2013.01.08DATAGURU专业数据分析网站黄志洪17场景一:日志分析2013.01.08DATAGURU专业数据

8、分析网站黄志洪18探针设计2013.01.08DATAGURU专业数据分析网站黄志洪19排除爬虫和程序点击,对抗作弊用鼠标测动对抗爬虫常用流量作弊手段跟踪用户2013.01.08DATAGURU专业数据分析网站黄志洪20需要的统计图表2013.01.08DATAGURU专业数据分析网站黄志洪21遇到的问题日志的保存需要大量的空间日志的备份成本统计时滞明显,不能满足业务要求2013.01.08DATAGURU专业数据分析网站黄志洪22Hadoop方案部署多个节点的Hadoop集群探

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。