当前位置: 首页 > news >正文

linux 故障处置通用流程-36计+1计

  1. 通用标准处置快速索引

编号

通 用 标 准 处 置

索 引

001

Linux操作系统标准关闭

002

Linux操作系统标准重启

003

Linux操作系统强行关闭

004

Linux操作系统强行重启

005

检查Linux操作系统CPU负载

006

查询占用CPU资源最多的进程

007

检查Linux操作系统内存使用率

008

查询占用内存资源最多的进程

009

判断是否有僵尸进程

010

检查Linux操作系统磁盘I/O负载

011

查询消耗I/O资源最多的进程

012

文件系统信息

013

物理卷、卷组和逻辑卷

014

查看系统主要日志

015

主机通讯是否有延迟

016

主机通讯延迟或丢包

017

主机路由设置是否正确

018

到相连业务系统的通讯是否正常

019

网卡驱动是否正常加载

020

网卡配置信息检测

021

网卡配置参数

022

查看双机状态

023

重启群集服务

024

群及服务切换到备机

025

关闭主机群集服务

026

手工恢复群集服务

027

搜集系统信息

028

进入单用户模式

029

进入紧急救援模式

030

查看服务器端口是否正常开启

031

网络连接数统计

032

交换区使用情况检查

033

文件句柄数调整

034

主机启动时fstab中有错误配置

035

bond主备网卡切换

036

查看内核slab内存占用

037

清理系统内存中的cache和buffer

001:Linux操作系统标准关闭
  1. 通过堡垒机以root用户登录;
  2. 根据需求首先关闭应用程序/数据库(该步骤可选,需要的系统请明示步骤)
  3. 执行shutdown -h now

002:Linux操作系统标准重启

shutdown -r now

003:Linux操作系统强行关闭

  1. 通过堡垒机以root用户登录;
  2. 执行 poweoff

虚拟化平台(VM和华为云):

登录VM Vcenter-通过搜索查询到所需操作的虚拟机-右键虚拟机-启动-关闭电源

登录华为云 ManagerOne-左侧服务列表-弹性云服务器-更多-实例状态-关机

物理机带外:通过带外IP登录网页-电源-关机

004:Linux操作系统强行重启

  1. 通过堡垒机以root用户登录;
  2. 执行echo b > /proc/sysrq-trigger 或者执行 reboot -nf

虚拟化平台(VM和华为云):

登录VM Vcenter-通过搜索查询到所需操作的虚拟机-右键虚拟机-启动-重新启动客户机操作系统

登录华为云 ManagerOne-左侧服务列表-弹性云服务器-更多-实例状态-重启

物理机带外:通过带外IP登录网页-电源-重启

005:检查Linux操作系统CPU负载

  1. 通过堡垒机以root或普通权限用户登录
  2. 执行top命令;

  1. 执行sar -u 2 30命令; 2秒采样一次 采样30次
  2. 执行 sar -u -f /var/log/sa/sa+日期
  3. 执行vmstat 2 30命令;
  4. 执行mpstat 2 30命令;

006:定位占用CPU资源最多的进程

  1. 执行top命令;
  2. 在top命令执行窗口,使用热键“P”,按照CPU使用率对进程进行排序。

007:检查Linux操作系统内存使用率

  1. 执行命令:top;
  2. 执行命令:free;
  3. 执行命令:cat /proc/meminfo
  4. top--在程序界面中,查看MEM、Swap、Buffer、Cache数值;
  5. free:查看+/-buffers/cache后的内存使用率;
  6. cat /proc/meminfo:查看内存详细使用情况

008:查询占用内存资源最多的进程

  1. 执行top;
  2. 在top界面中按热键“M”,按照内存使用率对进程进行排序。
  3. 验证步骤:根据top命令输出排序结果,定位占用内存资源最多的进程。

​​​​​​​009:判断是否有僵尸进程

  1. 执行top命令;
  2. 执行ps aux|grep defunct命令
  3. 执行top:查看top输出中是否提示有僵尸进程及其数量;

  4. 使用ps命令查找并定位僵尸进程。

​​​​​​​010:检查Linux操作系统磁盘I/O负载

        执行:vmstat 1

        iostat 1

        sar -d命令

  1. vmstat反映了进程的虚拟内存,虚拟内存,磁盘,trap和cpu的活动情况,在多cpu系统中,vmstat在输出结果中平均了cpu数量
  2. iostat:如果想看每个设备的io情况,可使用iostat命令。

​​​​​​​011:查询消耗I/O资源最多的进程

操作步骤:

  1. 运行iotop工具进行系统I/O性能监控
  2. 运行iostat 命令查看 语法:【选项】【间隔时间】【次数】

常用参数:

-c:显示CPU利用率

-d:显示设备利用率

-t:显示时间戳

-x:显示详细磁盘指标

-y:跳过第一条数据

-k:显示单位为KB

-m:显示单位为MB

-p:指定主设备,显示主设备下所有磁盘信息

示例:

iostat -c 1 3 #输出3次 每次间隔一秒

iostat 1 2 #1秒刷新一次 统计2次

验证步骤:根据iotop输出结果验证

常用参数:

-o:只显示有io操作的进程

-b:批量显示,无交互,主要用作记录到文件。

-n NUM:显示NUM次,主要用于非交互式模式。

-d SEC:间隔SEC秒显示一次。

-p PID:监控的进程pid。

-u USER:监控的进程用户。

示例

iotop

​​​​​​​

​​​​​​​012:文件系统信息

  1. 执行以下命令查看文件系统挂载情况:

#df -h 查看文件系统使用率

#df -i 查看文件系统inode使用率

#mount 查看文件系统mount属性

#cat /etc/fstab 确认是否有未挂载文件系统

  1. 查看日志中是否有关于文件系统的报错信息

#tail -2000 /var/log/messages

        验证步骤:

  1. 文件系统正常挂载,读/写属性正常,日志无报错;
  2. 可手工创建临时文件,以验证文件系统的可读/写性。

​​​​​​​013:物理卷、卷组和逻辑卷

  1. 执行以下命令查看PV、VG、LV信息:

#pvs ;#pvdisplay 查看物理卷信息

#vgs ;#vgdisplay 查看卷组信息

#lvs ;#lvdisplay 查看逻辑卷信息

  1. 查看日志中是否有关于文件系统的报错信息

#tail -2000 /var/log/messages

#cat /var/log/messages |grep -i fs

验证步骤:

  1. 物理卷、卷组、逻辑卷状态正常,读/写属性正常,日志无报错;
  2. 如果要查看PV、VG和LV的详细扫描信息,可以使用命令pvdisplay、vgdisplay、lvdisplay并搭配 “-vvvv”参数使用。

http://www.lqws.cn/news/134605.html

相关文章:

  • [C]extern声明变量报错:undefined reference终极解决方案
  • 图论水题2
  • 基于 qiankun + vite + vue3 构建微前端应用实践
  • 高防CDN有用吗?它的防护效果怎么样?
  • ComfyUI一键画风转换:爆火吉普力画风一键转绘
  • 区块链+AI融合实战:智能合约如何结合机器学习优化DeFi风控?
  • JavaWeb:前后端分离开发-部门管理
  • 如何搭建Z-Blog PHP版本:详细指南
  • 关于项目多语言化任务的概述
  • 一文读懂RAG流程中用到的请求参数与返回字段
  • 【Linux】Linux权限
  • matlab模糊控制实现路径规划
  • 函数调用(Function Calling)
  • Markdown基础(1.2w字)
  • 本地日记本,用于记录日常。
  • k8s热更新-subPath 不支持热更新
  • 损失函数L对全连接层W、X、b的梯度
  • 【机器人编程基础】循环语句for-while
  • 字符串Base64编码经历了什么
  • 压测软件-Jmeter
  • 【Pandas】pandas DataFrame sample
  • 机器学习的数学基础:假设检验
  • 从上下文学习和微调看语言模型的泛化:一项对照研究
  • Linux系统iptables防火墙实验拓补
  • WES7系统深度定制全流程详解(从界面剥离到工业部署)
  • 【python】运行python程序的方式
  • 数据湖是什么?数据湖和数据仓库的区别是什么?
  • 不同视角理解三维旋转
  • macOS 上使用 Homebrew 安装redis-cli
  • CanvasGroup篇