当前位置: 首页 > news >正文

linux 故障处置通用流程-36计-14-27

014:查看系统主要日志

查看以下日志:

主要查以下关键字 error/NIC/fs /"link down"/Oout of memory"

/var/log/messages

/var/log/dmesg

015:主机通讯是否延迟

执行命令:

#ping 网关_IP

#ping 关联主机_IP

​​​​​​​016:主机通讯是否丢包

执行:

#/sbin/ifconfig

#ping -c 次数 IP地址

​​​​​​​017:主机路由设置是否正确

  1. 执行以下命令:

#route

#cat /proc/net/route

  1. 查看路由是否正确添加;
  2. 当前路由所对应物理网卡是否正确;
  3. 最多只有一条缺省路由。

​​​​​​​018:到相连业务系统的通讯是否正常

  1. 执行命令:

#ping 关联系统_IP网关_IP

#telnet 关联系统_IP PORT_NUMBER

#route

#traceroute 关联系统_IP

#ifconfig

  1. 检测与目标主机的连通性;
  2. 检测路由正确性;
  3. 检测网卡状况是否正常。
019:网卡驱动是否正常加载
  1. 执行命令:

#cat /var/log/mesages | grep -Ei "system boot|Err|Warn| Fatal|fail|Killsingal" 查看日志信息

#ifconfig 查看网卡工作状态

#lspci |grep -i eth(linux7)、

dmesg | grep -i eth(linux6) 查看物理网卡

#ethtool -i 网卡_名称 查看指定网卡所使用的驱动程序

#cat /proc/modules 查看已加载驱动

#lsmod 查看当前网卡驱动是否已经正确加载

#modinfo 驱动_名称 查看驱动信息

  1. 查看messages日志文件中是否有报错;
  2. 根据ifconfig查看网卡工作状态;
  3. 根据lspci判断物理网卡型号;
  4. 使用ethtool查看指定网卡所使用的驱动程序;
  5. 根据/proc/modules、lsmod判断网卡驱动是否已经正常加载;
  6. 使用modinfo查看驱动程序详细信息。
020:网卡配置信息检测

#ping _IP

#ping 关联主机_IP

#ifconfig 查看网卡信息

#tail -2000 /var/log/messages 查看日志信息

#cat /etc/sysconfig/network- scripts/ifcfg-eth?,

查看IP,掩码,网关等设置信息;

修改配置文件后,执行 #service network restart(linux6)、systemctl restart network(linux7) ,重启网络服务。

  1. 检测主机与网及关联主机通讯是否正常;
  2. 主机网卡状态是否正常;
  3. 系统日志中是否有明显报错;
  4. 主机缺省路由是否配置正确;
  5. 网卡配置文件是否正确:如果配置文件中含有MAC地址,应使用dmesg命令,验证MAC地址是否填写正确;
  6. 调整配置并重启网络服务

021:网卡配置参数

执行命令:

#ethtool 网卡_名称

使用ethtool命令,查看网卡配置是否正常,主要关注网卡连接模式(10/100/1000baseT)及工作模式(Half/Full)。

022:查看群集状态及共享资源

执行:clustat(redhat6)

pcs status (redhat7)

  1. 集群资源状态为Online
  2. 集群资源状态为Started
023:重启群集服务

redhat6

#clusvcadm –r test_svc (test_svc 资源组名字)

重新启动test_svc这个服务;

redhat7

pcs resource unmanager <resource_name>

pcs cluster disunmanagerable

pcs cluster enable

pcs resource unmanager <resource_name>

  1. 查看日志:tail -f /var/log/messages
  2. 使用clustat(redhat6)/pcs stauts(redhat7)查看双机节点及服务状态。
  1. 命令执行成功,服务重新运行于当前节点;
  2. 切换过程中,messages日志文件中报错信息;
  3. clustat命令显示双机节点及服务状态正常。

024:群集服务切换到备机
  1. 如果主机服务异常,且通过重启主机服务进程亦无法恢复,那么可以将服务切换到备机:

redhat 6

#clusvcadm –r test_svc -m host2

将服务test_svc切换到主机host2上运行

redhat7

pcs cluster standby node1

将node1上的资源切换到主机node2上运行

pcs cluster unstandby node1

  1. 查看日志:tail -f /var/log/messages
  2. clustat/pcs status命令显示双机节点及服务状态正常。​​​​​​​
  3. 命令执行成功,双机节点正常切换;
  4. 切换过程中,messages日志文件中报错信息;
  5. clustat/pcs status命令显示双机节点及服务状态正常
025:关闭主机群集服务
  1. 如果RHCS集群环境中,主、备机均无法正常提供服务,那么可以手工启动或是冷备机的方式恢复服务,但在这之前需要先关闭集群中的服务进程:

#clusvcadm –s test_svc –m host2

redhat6

在两个节点执行同时进行操作

service rgmanager stop

service clvmd stop

service cman stop

redhat7

pcs cluster disable --all

  1. 执行clustat命令查看服务关闭情况;clustat 命令不存在
  2. 使用df、ping、”ip addr list”命令,确认群集共享资源已释放;
  3. 查看日志:tail -f /var/log/messages;
    1. 群集Service正常关闭;
    2. 群集共享资源已释放;
    3. 系统日志无报错;
    4. 群集各节点Cluster服务关闭;

 

026:手工恢复群集服务
  1. 在停止RHCS服务后,可按照以下步骤手工挂载资源,并启动服务:

网络IP地址:使用ifconfig命令,修改服务地址;

存储空间:

vgscan 扫描可用卷组;

vgdisplay 查看卷组信息;

importvg VG_NAME 导入卷组信息;

vgchange -ay VG_NAME 激活卷组;

lvscan 识别lv;

如果上述操作中,卷组无法在单机激活,则有可能是在/etc/lvm/lvm.conf中配置了volume_list和locking_type限制,只有带有相应TAG标签的卷组才能在相应主机激活,可按如下操作验证并调整:

#vgs -o +vg_tags 查看卷组标签信息

#vgchange -addtag `hostname` 共享_VG_NAME

#vgs -o +vg_tags 验证卷组标签是否已经添加】

文件系统:根据lvscan信息,mount相关文件系统;

配置文件:检查/etc/passwd,/etc/hosts,/etc/services等配置文件是否正常;

检测数据库配置信息完备,尝试启动数据库(其间注意观察数据库日志信息);

应用服务:根据应用服务启动顺序,启动各项应用服务。

  1. 查看日志:tail -f /var/log/messages
    1. 手工添加Service IP;
    2. 卷组可以正常在单机激活;
    3. lv信息正常;
    4. 在单机手工挂载共享存储资源;
    5. 启动数据库及应用。

 

027:群集服务冻结和解冻

redhat6

clusvcadm -Z 资源名字

redhat7

pcs status

pcs cluster standby node1(没有资源的节点)

pcs resource unmanager service (如果两个节点都有资源)

2) 解冻

redhat6

clusvcadm -U 资源名字

应用服务:根据应用服务启动顺序,启动各项应用服务。

  1. 查看日志:tail -f /var/log/messages
    1. 手工添加Service IP;
    2. 卷组可以正常在单机激活;
    3. lv信息正常;
    4. 在单机手工挂载共享存储资源;
    5. 启动数据库及应用。
http://www.lqws.cn/news/147727.html

相关文章:

  • Windows 10 IoT 系统深度定制指南:从环境搭建到工业部署
  • Web 架构相关文章目录(持续更新中)
  • Monorepo架构: Nx Cloud 扩展能力与缓存加速
  • 【深尚想】OPA855QDSGRQ1运算放大器IC德州仪器TI汽车级高速8GHz增益带宽的全面解析
  • AI编程助手入门指南:GitHub Copilot、Cursor与Claude的安装与基础使用
  • 【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)
  • 20250605使用boot-repair来恢复WIN10和ubuntu22.04.6双系统的启动
  • 案例分享--汽车制动卡钳DIC测量
  • Hive的TextFile格式优化方法
  • 【深尚想】TPS54618CQRTERQ1汽车级同步降压转换器电源芯片全面解析
  • 14.AI搭建preparationのBERT预训练模型进行文本分类
  • LeetCode 1356.根据数字二进制下1的数目排序
  • Linux(13)——Ext系列⽂件系统
  • 【缺陷】温度对半导体缺陷电荷态跃迁能级的影响
  • PostgreSQL 技术峰会,为您打造深度交流优质平台
  • [10-1]I2C通信协议 江协科技学习笔记(17个知识点)
  • MATLAB读取文件内容:Excel、CSV和TXT文件解析
  • 「深度拆解」Spring Boot如何用DeepSeek重构MCP通信层?从线程模型到分布式推理的架构进化
  • 基于LocalAI与cpolar技术协同的本地化AI模型部署与远程访问方案解析
  • 阿里云域名怎么绑定
  • EasyRTC音视频实时通话助力新一代WebP2P视频物联网应用解决方案
  • 智慧赋能:移动充电桩的能源供给革命与便捷服务升级
  • Postgresql字符串操作函数
  • Python Excel 文件处理:openpyxl 与 pandas 库完全指南
  • WebRTC中的几个Rtp*Sender
  • 阿里云事件总线 EventBridge 正式商业化,构建智能化时代的企业级云上事件枢纽
  • 基于RK3568的多网多串电力能源1U机箱解决方案,支持B码,4G等
  • 【计算机网络】NAT、代理服务器、内网穿透、内网打洞、局域网中交换机
  • 计算机网络领域所有CCF-A/B/C类期刊汇总!
  • 如何选择专业数据可视化开发工具?为您拆解捷码全功能和落地指南!