数据库服务器主机重启故障诊断分析

时间：2020-06-28 10:59:03 来源：作者：

某客户RAC数据库服务器主机轮流发生集群与主机重启，数据库连接不上问题，如下为故障诊断思路。

一、故障现象

告警日志:

Sun Feb 09 14:18:42 2020
Auto-tuning: Shutting down background process GTX2
Sun Feb 09 15:06:00 2020
NOTE: ASMB terminating
Errors in file /opt/oracle/App/diag/rdbms/xxxx/xxxx1/trace/xxxx1_asmb_7463.trc:
ORA-15064: communication failure with ASM instance
ORA-03113: end-of-file on communication channel
Process ID:
Session ID: 68 Serial number: 5
Errors in file /opt/oracle/app/diag/rdbms/xxxx/xxxx1/trace/xxxx1_asmb_7463.trc:
Errors in file /opt/oracle/app/diag/rdbms/xxxx/xxxx1/trace/xxxx1_asmb_7463.trc:
ORA-15064: communication failure with ASM instance
ORA-03113: end-of-file on communication channel
Process ID:
Session ID: 68 Serial number: 5
ASMB (ospid: 7463): terminating the instance due to error 15064
Termination issued to instance processes. Waiting for the processes to exit
Sun Feb 09 15:06:11 2020
Instance termination failed to kill one or more processes
Instance terminated by ASMB, pid = 7463
Sun Feb 09 15:12:24 2020
Starting ORACLE instance (normal)
************************ Large Pages Information *******************
Per process system memlock (soft) limit = UNLIMITED

Total Shared Global Region in Large Pages = 0 KB (0%)

Large Pages used by this instance: 0 (0 KB)
Large Pages unused system wide = 0 (0 KB)
Large Pages configured system wide = 0 (0 KB)
Large Page size = 2048 KB

RECOMMENDATION:
 Total System Global Area size is 24 GB. For optimal performance,
 prior to the next instance restart:
 1. Increase the number of unused large pages by
at least 12289 (page size 2048 KB, total size 24 GB) system wide to
 get 100% of the System Global Area allocated with large pages
********************************************************************

从数据库告警日志可以发现，核心进程asmb 在2.9日15.06分突然提示正在终止，随后一节点数据库报错，不能与 ASM通信, 也就是连不上 ASM存储,检查ASM告警日志发现，核心进程ASMB 在2.9日15.06分被kill 掉，随后一节点的ASM实例挂掉，导致一节点数据库也紧跟着挂掉

二、故障原因

从15:03开始

一节点开始报 voting file所在的磁盘，IO通信有超时的现象，磁盘hang住, 到15.05分开始 ocr_vote磁盘离线，一节点被剔出集群，

后续检查主机，发现主机重启过，检查操作系统日志，发现从15.02分开始，: INFO: task ocssd.bin:16080 blocked for more than 120 seconds. 有任务被hung 住，

该错误是由于IO子系统的处理速度不够快，不能在120秒将缓存中的数据全部写入磁盘。IO系统响应缓慢，导致越来越多的请求堆积，最终IO 耗尽，系统内存全部被占用，导致系统失去响应，发生故障。

三、故障解决

建议一：

可以调整操作系统参数，

vm.dirty_ratio=20
vm.dirty_background_ratio=3

目前操作系统配置文件/etc/sysctl.conf 中没有这两个参数，建议调整，sysctl -p 生效，（调整该操作系统参数不用重启主机） vm.dirtybackgroundratio 这个参数指定了当文件系统缓存脏页数量达到系统内存百分之多少时（如5%）就会触发pdflush/flush/kdmflush等后台回写进程运行，将一定缓存的脏页异步地刷入外存;

操作系统参数说明:

vm.dirty_ratio 这个参数则指定了当文件系统缓存脏页数量达到系统内存百分之多少时（如10%），系统不得不开始处理缓存脏页（因为此时脏页数量已经比较多，为了避免数据丢失需要将一定脏页刷入外存）；在此过程中很多应用进程可能会因为系统转而处理文件IO而阻塞。

建议二:

另外在检查中，发现该主机未配置大页，建议配置大页，可以极大提升数据库性能

后期调整后至今没有发现主机重启，故障解决。

原文阅读：
https://www.modb.pro/db/22702?YYF

更多数据库相关干货，欢迎访问墨天轮官网：https://www.modb.pro/?YYF

Tags：服务器点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

云服务器选操作系统

Windows操作系统和Linux操作系统有何区别？Windows操作系统：需支付版权费用，（华为云已购买正版版权，在华为云购买云服务器的用户安装系统时无需额外付费），界面化的操作系统对用户使...【详细内容】

2021-12-21　　Tags: 服务器点击:(6)　　评论:(0)　　加入收藏

Linux 服务器安全加固 10 条建议

以下是服务器安全加固的步骤，本文以腾讯云的CentOS7.7版本为例来介绍，如果你使用的是秘钥登录服务器1-5步骤可以跳过。1、设置复杂密码服务器设置大写、小写、特殊字符、数字...【详细内容】

2021-12-20　　Tags: 服务器点击:(7)　　评论:(0)　　加入收藏

Windows Terminal：SSH连接远程服务器

转自： https://kermsite.com/p/wt-ssh/由于格式问题，部分链接、表格可能会失效，若失效请访问原文密码登录以及通过密钥实现免密码登录Dec 15, 2021阅读时长: 6 分钟简介Windo...【详细内容】

2021-12-17　　Tags: 服务器点击:(16)　　评论:(0)　　加入收藏

netty系列之：性能为王！创建多路复用http2服务器

简介在之前的文章中，我们提到了在netty的客户端通过使用Http2FrameCodec和Http2MultiplexHandler可以支持多路复用，也就是说在一个连接的channel基础上创建多个子channel，通过...【详细内容】

2021-12-14　　Tags: 服务器点击:(8)　　评论:(0)　　加入收藏

买服务器买阿里云还是腾讯云？我更推荐阿里云

阿里云和腾讯云都是非常好的云服务器平台，大多数用户完全不用纠结腾讯云还是阿里云，特别是微信开发用户，自然是首选腾讯云，其次是学生或个人以及财政紧张的小公司微型业务，腾讯云...【详细内容】

2021-12-14　　Tags: 服务器点击:(14)　　评论:(0)　　加入收藏

linux服务器垃圾清理记

今日总监说32 服务器磁盘占用率超过80%多了。不对啊之前才清理过df -h 查看了一番果然40g 用了33g。看了下历史会爆目录也就5.3G 之前是服务生成临时下载的附件多。...【详细内容】

2021-12-10　　Tags: 服务器点击:(17)　　评论:(0)　　加入收藏

Linux服务器打造一个简单的文件共享系统

在Linux系统下如何分享文件呢，你可能会想到用scp、rsync此类的命令，但都需要给出服务器密码，不安全。或者搭建一个ftp、nfs或samba的服务，分配个账号或划分个权限给其它人共享文...【详细内容】

2021-12-08　　Tags: 服务器点击:(17)　　评论:(0)　　加入收藏

什么是DNS？为什么DNS根服务器只有13台？给中国一台真的很难吗？

域名系统是最重要的互联网服务之一，没有它，我们将无法访问在线内容，甚至无法发送电子邮件。每当我们尝试连接到其他网站或在线服务时，根 DNS 服务器都会帮助我们的计算机找到并...【详细内容】

2021-11-25　　Tags: 服务器点击:(35)　　评论:(0)　　加入收藏

AF 服务器安全防护实验

实验拓扑图 1-1实验需求在深圳总部的 AF 上，配置 DDOS 防护，防止服务器区的服务器被 DDOS 攻击在深圳总部的 AF 上，配置 IPS，对服务器区的服务器实现入侵检测和入侵防御实验...【详细内容】

2021-11-23　　Tags: 服务器点击:(26)　　评论:(0)　　加入收藏

Windows系统服务器系统日志在哪里查看？

服务器日志(server log)是一个或多个由服务器自动创建和维护的日志文件，其中包含其所执行活动的列表简单来说，服务器的日记就是记录网站被访问的全过程，什么时间到什么时间有哪...【详细内容】

2021-11-11　　Tags: 服务器点击:(42)　　评论:(0)　　加入收藏

▌简易百科推荐

VMware更新阿里云镜像源CentOS7镜像

阿里云镜像源地址及安装网站地址https://developer.aliyun.com/mirror/centos?spm=a2c6h.13651102.0.0.3e221b111kK44P更新源之前把之前的国外的镜像先备份一下切换到yumcd...【详细内容】

2021-12-27　　干程序那些事　　　　Tags:CentOS7镜像　点击:(1)　　评论:(0)　　加入收藏

Netty客户端断线重连实现及问题思考

前言在实现TCP长连接功能中，客户端断线重连是一个很常见的问题，当我们使用netty实现断线重连时，是否考虑过如下几个问题：如何监听到客户端和服务端连接断开 ? 如何实现断线后重...【详细内容】

2021-12-24　　程序猿阿嘴　　CSDN　　Tags:Netty 　点击:(12)　　评论:(0)　　加入收藏

Centos7如何安装google-chrome浏览器

一. 配置yum源在目录 /etc/yum.repos.d/ 下新建文件 google-chrome.repovim /etc/yum.repos.d/google-chrome.repo按i进入编辑模式写入如下内容:[google-chrome]name=googl...【详细内容】

2021-12-23　　有云转晴　　　　Tags:chrome 　点击:(7)　　评论:(0)　　加入收藏

HTTP gzip压缩

一. HTTP gzip压缩,概述 request header中声明Accept-Encoding : gzip，告知服务器客户端接受gzip的数据 response body，同时加入以下header：Content-Encoding: gzip：表明bo...【详细内容】

2021-12-22　　java乐园　　　　Tags:gzip压缩　点击:(9)　　评论:(0)　　加入收藏

Centos7使用ping命令对普通用户提权

yum -y install gcc automake autoconf libtool makeadduser testpasswd testmkdir /tmp/exploitln -s /usr/bin/ping /tmp/exploit/targetexec 3< /tmp/exploit/targetls -...【详细内容】

2021-12-22　　SofM　　　　Tags:Centos7 　点击:(7)　　评论:(0)　　加入收藏

云服务器选操作系统

2021-12-21　　卷毛琴姨　　　　Tags:云服务器　点击:(6)　　评论:(0)　　加入收藏

Hive安装和使用

参考资料:Hive3.1.2安装指南_厦大数据库实验室博客Hive学习（一）安装环境：CentOS 7 + Hadoop3.2 + Hive3.1 - 一个人、一座城 - 博客园1.安装hive1.1下载地址hive镜像路径 ht...【详细内容】

2021-12-20　　zebra-08　　　　Tags:Hive 　点击:(9)　　评论:(0)　　加入收藏

Linux 服务器安全加固 10 条建议

2021-12-20　　网安人　　　　Tags:服务器　点击:(7)　　评论:(0)　　加入收藏

Nginx 解决PDF不能在线预览

项目中，遇到了一个问题，就是PDF等文档不能够在线预览，预览时会报错。错误描述浏览器的console中，显示如下错误：nginx代理服务报Mixed Content: The page at ******** was loaded...【详细内容】

2021-12-17　　mdong　　　　Tags:Nginx 　点击:(7)　　评论:(0)　　加入收藏

Windows Terminal：SSH连接远程服务器

2021-12-17　　LaLiLi　　　　Tags:SSH连接　点击:(16)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游