hbase运维参考手册(项目实战)

hbase运维参考手册(项目实战)

ID:14652805

大小:634.84 KB

页数:19页

时间:2018-07-29

hbase运维参考手册(项目实战)_第1页
hbase运维参考手册(项目实战)_第2页
hbase运维参考手册(项目实战)_第3页
hbase运维参考手册(项目实战)_第4页
hbase运维参考手册(项目实战)_第5页
资源描述:

《hbase运维参考手册(项目实战)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1Hbase日常运维1.1监控Hbase运行状况1.1.1操作系统1.1.1.1IOa.群集网络IO,磁盘IO,HDFSIOIO越大说明文件读写操作越多。当IO突然增加时,有可能:1.compact队列较大,集群正在进行大量压缩操作。2.正在执行mapreduce作业可以通过CDH前台查看整个集群综合的数据或进入指定机器的前台查看单台机器的数据:b.Iowait磁盘IO对集群的影响比较大,如果iowait时间过长需检查系统或磁盘是否有异常。通常IO增加时iowait也会增加,现在FMS的机器正常情况iowait在50

2、ms以下跟主机相关的指标可以在CDH前台左上角先点“主机”选项卡然后选要查看的主机:1.1.1.1CPU如果CPU占用过高有可能是异常情况引起集群资源消耗,可以通过其他指标和日志来查看集群正在做什么。1.1.1.2内存1.1.2JAVAGC情况regionserver长时间GC会影响集群性能并且有可能会造成假死的情况1.1.3重要的hbase指标1.1.3.1region情况需要检查1.region的数量(总数和每台regionserver上的region数)2.region的大小如果发现异常可以通过手动merger

3、egion和手动分配region来调整从CDH前台和master前台以及regionServer的前台都可以看到region数量,如master前台:在regionserver前台可以看到storeFile大小:1.1.1.1缓存命中率缓存命中率对hbase的读有很大的影响,可以观察这个指标来调整blockcache的大小。从regionserverweb页面可以看到blockcache的情况:1.1.1.1读写请求数通过读写请求数可以大概看出每台regionServer的压力,如果压力分布不均匀,应该检查regio

4、nServer上的region以及其它指标masterweb上可以看到所以regionServer的读写请求数regionServer上可以看到每个region的读写请求数1.1.1.1压缩队列压缩队列存放的是正在压缩的storefile,compact操作对hbase的读写影响较大通过cdh的hbase图表库可以看到集群总的压缩队列大小:可以通过CDH的hbase主页查询compact日志:点击“压缩”进入:1.1.1.1刷新队列单个region的memstore写满(128M)或regionServer上所有re

5、gion的memstore大小总合达到门限时会进行flush操作,flush操作会产生新的storeFile同样可以通过CDH的hbase前台查看flush日志:1.1.1.1rpc调用队列没有及时处理的rpc操作会放入rpc操作队列,从rpc队列可以看出服务器处理请求的情况1.1.1.2文件块保存在本地的百分比datanode和regionserver一般都部署在同一台机器上,所以regionserver管理的region会优先存储在本地,以节省网络开销。如果blocklocality较低有可能是刚做过balanc

6、e或刚重启,经过compact之后region的数据都会写到当前机器的datanode,blocklocality也会慢慢达到接近100:1.1.1.1内存使用情况内存使用情况,主要可以看usedHeap和memstore的大小,如果usedHeadp一直超过80-85%以上是比较危险的memstore很小或很大也不正常从regionServer的前台可以看到:1.1.1.2slowHLogAppendCount写HLog过慢(>1s)的操作次数,这个指标可以作为HDFS状态好坏的判断在regionServer前台查

7、看:1.1.1CDH检查日志CDH有强大的系统事件和日志搜索功能,每一个服务(如:hadoop,hbase)的主页都提供了事件和告警的查询,日常运维除了CDH主页的告警外,需要查看这些事件以发现潜在的问题:选择“事件搜索”中的标签(“警报”、“严重”)可以进入相关的事件日志,如“严重”:1.1检查数据一致性以及修复方法数据一致性是指:1.每个region都被正确的分配到一台regionserver上,并且region的位置信息及状态都是正确的。2.每个table都是完整的,每一个可能的rowkey都可以对应到唯一的一

8、个region.1.1.1检查hbasehbck注:有时集群正在启动或region正在做split操作,会造成数据不一致hbasehbck-details加上–details会列出更详细的检查信息,包括所以正在进行的split任务hbasehbckTable1Table2如果只想检查指定的表,可以在命令后面加上表名,这样可以节省操作时间CDH通

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。