当前位置: 首页 > news >正文

Linux操作系统故障应急场景及对应排查方法

001:系统CPU负载高并触发监控报警

005

查看系统CPU使用情况,,确认CPU数量,确认系统负载,确认CPU高对系统的影响

006

定位占用CPU资源最多的进程,根据进程判断是应用进程还是系统进程还是第三方工具进程。

014

查看系统主要日志:在messages日志中是否有关于软、硬件的报错信息。

005

通过监控或者系统查看CPU使用高的时间

011

确认其他资源信息情况,IO/内存/内核

002:系统内存使用率高并触发监控报警

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

查看系统内存使用情况

定位占用内存资源较多的进程

判断是否有僵尸进程

查看系统主要日志

003:使用率高并长时间持续

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

查看系统I/O使用情况

定位占用I/O资源较多的进程

查看系统主要日志

应急处置结束。

004:Agent心跳超时

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

判断主机通讯状况

主机网卡是否存在丢包现象

主机路由设置是否正确

网卡配置参数是否正确

系统日志是否有明显报错

005:主机路由表丢失

判断主机通讯状况

主机网卡是否存在丢包现象

主机路由设置是否正确

系统日志是否有明显报错

​​​​​​​006:通讯异常并报网卡故障

场景描述:主机通讯中断或有延迟、丢包现象,系统日志中有关于网卡的报错信息。

启动条件:系统日志中有网卡报错信息

现场保护:ifconfig、messages、dmesg日志

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

判断主机通讯状况

主机网卡是否存在丢包现象

系统日志是否有明显报错

网卡驱动是否正常加载

网卡配置信息是否正确

bond主备网卡切换

搜集系统信息

​​​​​​​007:与相关连业务系统通讯异常

现场保护:ifconfig、route、messages、dmesg

015

判断主机通讯状况

016

主机网卡是否存在丢包现象

014

系统日志是否有明显报错

019

网卡驱动是否正常加载

020

网卡配置信息是否正确

​​​​​​​008:群集系统服务异常

现场保护:使用sosreport命令收集系统信息。

022

查看双机状态及共享资源

014

系统日志是否有明显报错

result of stop operation for VIP on

024

尝试将集群服务切换到备机

025

如果群集切换失败,则考虑手工先行恢复系统服务,并首先关闭群集各节点Cluster服务。

026

如果群集切换失败,且短时间内无法解决,则先行手工恢复系统集群服务

027

收集系统信息

​​​​​​​009:群集双机发生切换

启动条件: 当群集双机发生切换期间,会造成服务中断,以及Server IP无响应,通常会触发集中监控报警。

现场保护:执行sosreport命令收集系统信息。

022

查看双机状态及共享资源

014

查看系统日志信息

024

如果群集切换后系统服务异常,则尝试将集群服务切换到指定节点

​​​​​​​009:群集双机切换失败

022

查看双机状态及共享资源

014

系统日志是否有明显报错

024

尝试将集群服务切换到指定节点

025

如果群集切换失败,则考虑手工先行恢复系统服务,并首先关闭群集各节点Cluster服务。

026

如果群集切换失败,且短时间内无法解决,则先行手工恢复系统集群服务

​​​​​​​010:主机挂起

现场保护:这种情况下,通常日志系统(syslog)已经不再记录信息,只能对主机执行重启操作;对于配置了kdump的主机,可以手工触发vmcore(echo c > /proc/sysrq-trigger)。

grep crashkernel /proc/cmdline

systemctl status kdump

/var/crash/127.0.0.1-yyyy-mm-dd-hh:mm:ss/vmcore

014

查看系统日志信息

002

手工重启主机

004

若手工重启主机失败,可强制重启主机。

014

主机启动后,检查系统日志是否有报错信息。

027

搜集系统信息

​​​​​​​011:主机自动重启

现场保护:收集sosreport信息;如果主机配置了kdump,则保留vmcore文件。

使用root用户登录主机,执行sosreport -a命令保存现场信息收集系统日志,查看/var/crash/是否有vmcore日志

014

查看系统日志信息

012

检查文件系统信息

013

查看PV、VG、LV信息

015

查看网络通讯状况

017

查看主机路由设置

检查应用系统是否恢复

​​​​​​​012:主机宕机

使用root用户登录主机,执行sosreport -a命令保存现场信息收集系统日志,查看/var/crash/是否有vmcore日志

014

查看系统日志信息

012

检查文件系统信息

013

查看PV、VG、LV信息

015

查看网络通讯状况

017

查看主机路由设置

检查应用系统是否恢复

​​​​​​​013:主机宕机并自动重启失败

现场保护:查看主机硬件是否有报错信息;得到授权后之后启动主机,并在控制台观察启动过程中是否有报错信息;如果主机无法正常启动,则根据主机启动报错信息进行修复。待主机启动完毕后,使用root用户收集sosreport信息;如果主机配置了kdump,则保留vmcore文件。

028

根据主机控制台信息,得到行员授权后尝试进入单用户模式进行修复

029

如果系统在单用户模式下无法修复,则需使用操作系统安装光盘引导进入救援模式进行修复。完成后重启主机

014

查看系统日志信息

012

检查文件系统信息

013

查看PV、VG、LV信息

015

查看网络通讯状况

017

查看主机路由设置

​​​​​​​014: swap交换分区使用率

现场保护:使用sosreport命令收集系统信息

使用top命令调整查看(使用热键f,根据方向键移动到SWAP行,选中按d, ESC退出编辑,即可查看)

定位占用swap资源较多的进程

判断是否有僵尸进程

查看系统主要日志

​​​​​​​015:NTP服务状态异常

检查NTP同步状态:ntpq -p 或者 chronyc sources -v

检查NTP服务状态:service ntpd status 或者systemctl status chronyd 检查是否设置开机自启动systemctl list-unit-files

检查NTP配置文件:cat /etc/ntp.conf 或者 cat /etc/chrony.conf

查看NTP的offset详细信息:ntptime或者chronyc tracking -v

查看系统主要日志

重启NTP服务:service ntpd restart 或者 systemctl restart chronyd

016:文件系统监控告警

现场保护:使用sosreport命令收集系统信息

012

检查文件系统状态:

#df -h

#df -ih

#mount

#cat /etc/fstab

014

查看系统主要日志

http://www.lqws.cn/news/208999.html

相关文章:

  • Linux 系统中的算法技巧与性能优化
  • code-server安装使用,并配置frp反射域名访问
  • 【PCIe总线】 -- PCI、PCIe相关实现
  • Java高级 | 【实验七】Springboot 过滤器和拦截器
  • WPF 播放器(AudioPlayer 2025)
  • vue · 插槽 | $slots:访问所有命名插槽内容 | 插槽的使用:子组件和父组件如何书写?
  • mysql已经安装,但是通过rpm -q 没有找mysql相关的已安装包
  • 【数据结构】6. 时间与空间复杂度
  • STM32学习笔记:外部中断(EXTI)原理与应用详解
  • 如何使用Jmeter进行压力测试?
  • NLP学习路线图(三十一): 迁移学习在NLP中的应用
  • 知识改变命运?如何有规划的学好计算机专业?
  • 元器件基础学习笔记——结型场效应晶体管 (JFET)
  • MacOS下Homebrew国内镜像加速指南(2025最新国内镜像加速)
  • 力扣-17.电话号码的字母组合
  • DL00335-基于深度学习YOLOv11的煤矸石检测含完整数据集
  • Qt Test功能及架构
  • 分贝计的校准方法和频率介绍
  • Protobuf 中的类型查找规则
  • 每日算法刷题Day25 6.7:leetcode二分答案3道题,用时1h40min(遇到两道动态规划和贪心时间较长)
  • 2025年燃气从业人员考试题库及答案
  • C++修炼:C++11(二)
  • Python 数据类型转换、编码处理与文件操作实战指南
  • Spring AI 核心工作流
  • 从零开始开发纯血鸿蒙应用之网络检测
  • Python异步编程-协程
  • 【R语言编程——数据调用】
  • Modbus RTU/TCP 协议详解与Spring Boot集成指南
  • Spring Boot
  • 13-Oracle 23ai Vector Search VECTOR数据类型和实操