greenplum维护

greenplum维护

ID:40489379

大小:1.05 MB

页数:16页

时间:2019-08-03

greenplum维护_第1页
greenplum维护_第2页
greenplum维护_第3页
greenplum维护_第4页
greenplum维护_第5页
资源描述:

《greenplum维护》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、V0.2GREENPLUM数据库日常维护手册第一章GP服务器每日例行检查1.1、检查时间0)早上起床后(建议值班人员操作,如果无值班条件可以省略,有条件的可以适当提前)1)早上上班后2)中午午休前3)中午午休后4)晚上下班前5)晚上休息前(建议值班人员操作,如果无值班条件可以省略)1.2、检查方法运行gm监控程序,运行方式为./gm主监控界面如下,如果出现非正常显示在日检查表“GM程序运行正常”一栏填写实际情况,否则打勾即可。1.3、检查内容1.3.1各服务器硬盘使用情况主要看硬盘使用占比boot、data、dev、shm、root。对于ETL服务器,建议不要超过

2、硬盘空间的85%;对于greenplum节点,建议不要超过硬盘空间的75%,以免影响greenplum数据库的效率。将数据盘中占用最高的数值填写在日检查表“数据盘最高占用“一栏。超限时要及时处理或向总部系统集成求助。1.3.2各服务器硬盘读写情况主要看各个segment数据节点读写情况R1K/S、W1K/S、R2K/S、W2K/S应该大致相同,如不同,需要检测不同的原因,一般可能是数据倾斜的问题。对于其他原因,需要根据具体情况进行检测。硬盘读写速度的大致平均数(前读后写中间加/符)填写在日检查表“IO速度率”一栏。1.3.3各服务器内存使用情况需要根据具体情况,如

3、发现内存使用异常(MemIdl明显低于其他机器),则需执行top命令找出异常进程进行分析。SWAP平均空闲值填写在日检查表“swap空闲”一栏;内存空闲值的大致平均数填写在日检查表“MemIdl”一栏。1.3.4各服务器CPU使用情况需要根据具体情况,如发现CPU使用异常(CpuIdl明显低于其他机器),则需执行top命令找出异常进程进行分析。CPU空闲的大致平均数填写在日检查表“CpuIdl”一栏。1.3.5各服务器IOWAIT情况需要根据具体情况,如发现IOWAIT异常(IOWait明显高于其他机器,或所有机器都很高超过15%),则需执行top命令找出异常进程

4、进行分析。IOWAIT的大致平均数填写在日检查表“IOWait”一栏。1.3.6查看RAID硬盘的状态即WritePolicy参数,正常状态显示为WB即WriteBack状态。全部为WB时在日检查表“WritePolicy”一栏打勾,有其他值时标注机器名和状态。1.3.7查看RAID卡电池属性即BATTS属性,正常状态显示为Ready状态。全部为Ready时在日检查表“Batts”一栏打勾,有其他值时标注机器名和状态。1.3.8查看greenplum镜像状态即Mirroralert状态。如果正常则没有显示,这时可在日检查表“MirrorAlert”一栏打勾,否则按

5、实际界面报告情况填写。如果出现镜像丢失,则会出现异常状态。需要根据实际情况,对丢失的镜像及时进行修复,修复时记得要填写维护日志,一旦涉及到修改系统参数,务必先备份并在维护日志中记载备份文件名。一般修复镜像需要在系统较空闲时进行,最好是没有任务时进行,必要时可以将/data/master/gpseg-1/pg_hba.conf中的相应行注释掉禁止可能连接数据库的终端连接数据库,修改后执行gpstop–u使临时配置生效,但一定要记得在修复后恢复配置,并运行gpstop–u使原配置生效。修复指令根据镜像告警不同也有所不同,当告警信息如图所示时需要执行gprecovers

6、eg修复。如果告警信息如下图所示,需要执行先gprecoverseg修复,完成后一定要先重启数据库,再执gprecoverseg–r修复,目前已有三套数据库因为没有重启后再-r修复而报废,请务必注意。如果告警信息如下图所示,需要执行gpinitstandby-n修复,注意修复过程会重启数据库,务必确认数据库中没有数据加工任务在运行,确实可以重启时运行此指令,这个指令花费时间根据数据库的系统表大小会有很大差别。可以进入到如下目录查看:只有base和global的大小是相关的,其他无所谓1.3.9查看是否存在WAITING操作在runningcSql区域有一个列正常是

7、空白的,如图所示的第4个列,如果这个列不是空白而是出现WAITING,就要及时与总部技术支持联系查找原因了。空白时在日检查表“WAITING”一栏打勾,否则打X。1.3.10查看硬件告警正常情况下这告警区域(在最下方区域)是空白的,日检查表“SystemAlertlog”一栏打勾,否则将告警摘抄在这一栏。如果出现告警需要确认故障,并及时报修。如果不能确认或不会确认可以申请公司总部的技术支持。或者告警很多时,可以请总部支持清除日志。下图所示的故障发生在一次重启机器后,故障信息是电池充电由于温度过高的原因而中止。这是一个可以忽略的故障,清除日志即可。硬件出现紧急告警(

8、Criti

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。