Linux故障排查命令和技巧#

故障排查概述#

故障排查是系统管理的重要组成部分，它可以帮助系统管理员快速识别和解决系统问题，减少系统 downtime，提高系统的可靠性和可用性。Linux系统提供了丰富的故障排查工具和命令，本文将介绍Linux系统中常用的故障排查命令和技巧，帮助系统管理员更高效地排查和解决系统故障。

故障排查步骤#

1. 收集信息#

在开始故障排查之前，首先需要收集足够的信息，了解故障的症状和上下文。

故障现象：系统表现出的异常行为，如服务无法启动、网络连接失败等
故障时间：故障发生的时间点
系统状态：系统的当前状态，如CPU、内存、磁盘使用情况
系统日志：系统和应用程序的日志信息
配置变更：最近的系统配置变更
相关事件：与故障相关的其他事件

2. 分析问题#

根据收集到的信息，分析问题的可能原因。

确定故障范围：故障影响的范围，是单个服务还是整个系统
识别可能原因：根据故障现象和系统状态，识别可能的原因
验证假设：通过测试和检查，验证可能的原因

3. 解决问题#

根据分析结果，采取适当的措施解决问题。

制定解决方案：根据故障原因，制定解决方案
实施解决方案：执行解决方案，解决故障
验证解决方案：验证解决方案是否有效
记录解决方案：记录故障原因和解决方案，便于未来参考

系统启动故障排查#

启动过程#

Linux系统的启动过程包括以下几个阶段：

BIOS/UEFI初始化：硬件自检和引导设备选择
引导加载程序：加载内核和初始化RAM磁盘
内核初始化：初始化硬件和挂载根文件系统
init系统：启动系统服务和用户空间进程
登录界面：显示登录提示符

启动故障排查命令#

dmesg命令#

dmesg命令用于显示内核启动信息，可用于排查启动过程中的问题。

1
# 查看内核启动信息
2
dmesg
3

4
# 查看内核启动信息（最新的100行）
5
dmesg | tail -n 100
6

7
# 查看包含错误信息的内核启动信息
8
dmesg | grep "error"
9
dmesg | grep "fail"
10

11
# 查看特定硬件的内核启动信息
12
dmesg | grep "eth0"  # 网络接口
13
dmesg | grep "sda"  # 磁盘
14

15
# 以人类可读格式显示时间戳
16
dmesg -T
17

18
# 清除内核环形缓冲区
19
dmesg -c

journalctl命令#

journalctl命令用于查看systemd日志，可用于排查启动过程中的问题。

1
# 查看启动日志
2
journalctl -b
3

4
# 查看上一次启动的日志
5
journalctl -b -1
6

7
# 查看启动过程中的错误
8
journalctl -b -p err..emerg
9

10
# 查看特定服务的启动日志
11
journalctl -b -u sshd
12

13
# 实时查看日志
14
journalctl -b -f
15

16
# 查看启动时间
17
journalctl -b --since "2026-02-05 00:00:00" --until "2026-02-05 00:10:00"

grub命令#

grub命令用于管理GRUB引导加载程序，可用于排查引导问题。

1
# 安装GRUB
2
grub-install /dev/sda
3

4
# 更新GRUB配置
5
update-grub  # Debian/Ubuntu
6
grub2-mkconfig -o /boot/grub2/grub.cfg  # RHEL/CentOS
7

8
# 进入GRUB命令行
9
# 在GRUB菜单中按"c"
10

11
# GRUB命令行常用命令
12
# ls: 列出设备和分区
13
# ls (hd0,1)/: 查看分区内容
14
# set root=(hd0,1): 设置根分区
15
# linux /vmlinuz root=/dev/sda1: 设置内核和根分区
16
# initrd /initrd.img: 设置初始化RAM磁盘
17
# boot: 启动系统

fsck命令#

fsck命令用于检查和修复文件系统，可用于排查文件系统损坏问题。

1
# 检查文件系统（未挂载）
2
sudo fsck /dev/sda1
3

4
# 自动修复文件系统问题
5
sudo fsck -y /dev/sda1
6

7
# 强制检查文件系统
8
sudo fsck -f /dev/sda1
9

10
# 检查文件系统并显示详细信息
11
sudo fsck -v /dev/sda1
12

13
# 检查所有文件系统
14
sudo fsck -A

启动故障常见问题#

GRUB引导失败#

症状：系统无法启动，显示GRUB错误信息。

解决方案：

使用Live CD启动系统
挂载根分区
重新安装GRUB
更新GRUB配置

文件系统损坏#

症状：系统启动时显示文件系统错误。

解决方案：

使用Live CD启动系统
卸载损坏的文件系统
使用fsck检查和修复文件系统

内核崩溃#

症状：系统启动时显示内核崩溃信息。

解决方案：

检查硬件是否故障
检查内核参数是否正确
尝试使用旧内核启动
更新内核

系统运行故障排查#

系统资源故障排查#

CPU故障排查#

1
# 查看CPU使用情况
2
top
3
mpstat -P ALL 1
4

5
# 查看进程CPU使用情况
6
ps aux --sort=-%cpu | head -10
7

8
# 查看CPU温度
9
sensors  # 需要安装lm-sensors
10

11
# 查看CPU信息
12
lscpu
13
cat /proc/cpuinfo

内存故障排查#

1
# 查看内存使用情况
2
free -h
3
vmstat 1
4

5
# 查看进程内存使用情况
6
ps aux --sort=-%mem | head -10
7

8
# 查看内存映射
9
pmap -x PID
10

11
# 检查内存是否有错误
12
sudo memtester 1G 1  # 需要安装memtester
13

14
# 查看内存信息
15
dmidecode -t memory
16
cat /proc/meminfo

磁盘故障排查#

1
# 查看磁盘使用情况
2
df -h
3

4
# 查看磁盘I/O统计信息
5
iostat -x 1
6
iotop  # 需要安装iotop
7

8
# 查看磁盘健康状态
9
sudo smartctl -a /dev/sda  # 需要安装smartmontools
10

11
# 检查磁盘坏道
12
sudo badblocks -v /dev/sda
13

14
# 查看磁盘分区
15
sudo fdisk -l
16
sudo parted -l
17

18
# 查看文件系统状态
19
tune2fs -l /dev/sda1  # ext2/3/4文件系统

网络故障排查#

1
# 检查网络接口状态
2
ifconfig
3
ip addr
4

5
# 检查网络连接
6
ping -c 5 localhost
7
ping -c 5 127.0.0.1
8
ping -c 5 192.168.1.1  # 网关
9
ping -c 5 8.8.8.8  # 外部DNS
10

11
# 检查路由表
12
route -n
13
ip route
14

15
# 检查DNS配置
16
cat /etc/resolv.conf
17

18
# 检查网络连接状态
19
netstat -tuln
20
ss -tuln
21

22
# 检查防火墙规则
23
sudo iptables -L
24
sudo firewall-cmd --list-all  # firewalld
25

26
# 检查网络服务状态
27
sudo systemctl status network
28
sudo systemctl status NetworkManager

服务故障排查#

服务状态检查#

1
# 查看服务状态
2
systemctl status service_name
3

4
# 查看服务日志
5
journalctl -u service_name
6

7
# 查看服务启动失败原因
8
systemctl status service_name | grep "Failed"
9

10
# 查看服务依赖关系
11
systemctl list-dependencies service_name
12

13
# 查看服务启动顺序
14
systemctl list-dependencies --reverse service_name

服务启动故障排查#

症状：服务无法启动，显示错误信息。

解决方案：

检查服务配置文件
检查服务依赖项
检查服务日志
检查端口是否被占用
检查文件权限

1
# 检查服务配置文件语法
2
sudo nginx -t  # Nginx
3
sudo apache2ctl configtest  # Apache
4
sudo mysql --help  # MySQL
5

6
# 检查端口是否被占用
7
ss -tulnp | grep "port_number"
8

9
# 检查文件权限
10
ls -la /path/to/service/config
11

12
# 检查服务用户权限
13
sudo -u service_user command

进程故障排查#

进程状态检查#

1
# 查看所有进程
2
ps aux
3

4
# 查看特定进程
5
ps aux | grep "process_name"
6
ps -p PID
7

8
# 查看进程树
9
pstree
10
pstree -p PID
11

12
# 查看进程状态
13
ps -eo pid,comm,state | grep "D"  # 不可中断睡眠状态
14

15
# 查看进程打开的文件
16
lsof -p PID
17

18
# 查看进程网络连接
19
lsof -i -p PID
20
netstat -p | grep "PID"
21
ss -p | grep "PID"
22

23
# 查看进程内存映射
24
pmap -x PID
25

26
# 查看进程环境变量
27
cat /proc/PID/environ | tr '\0' '\n'
28

29
# 查看进程命令行参数
30
cat /proc/PID/cmdline | tr '\0' '\n'
31

32
# 查看进程限制
33
cat /proc/PID/limits

进程崩溃排查#

症状：进程突然崩溃，没有明显原因。

解决方案：

检查系统日志
检查应用程序日志
检查核心转储文件
检查内存使用情况
检查文件系统空间

1
# 检查核心转储文件
2
ls -la /var/crash/  # Debian/Ubuntu
3
ls -la /var/lib/systemd/coredump/  # systemd
4

5
# 分析核心转储文件
6
gdb /path/to/executable /path/to/core
7

8
# 查看系统日志
9
journalctl -p err..emerg
10

11
# 查看应用程序日志
12
cat /var/log/application.log

网络故障排查#

网络连接故障排查#

基本网络检查#

1
# 检查网络接口状态
2
ifconfig
3
ip addr
4

5
# 检查网络连接
6
ping -c 5 localhost
7
ping -c 5 127.0.0.1
8
ping -c 5 192.168.1.1  # 网关
9
ping -c 5 8.8.8.8  # 外部DNS
10

11
# 检查DNS解析
12
host example.com
13
dig example.com
14
nslookup example.com
15

16
# 检查路由表
17
route -n
18
ip route
19

20
# 检查网络连接状态
21
netstat -tuln
22
ss -tuln
23

24
# 检查防火墙规则
25
sudo iptables -L
26
sudo firewall-cmd --list-all  # firewalld

高级网络检查#

1
# 追踪网络数据包的路由路径
2
traceroute example.com
3
tracepath example.com
4

5
# 检查网络连接质量
6
mtr example.com  # 需要安装mtr
7

8
# 检查网络服务端口
9
nc -zv example.com 80  # HTTP
10
nc -zv example.com 443  # HTTPS
11
nc -zv example.com 22  # SSH
12

13
# 检查网络吞吐量
14
iperf3 -s  # 服务器端
15
iperf3 -c server_ip  # 客户端
16

17
# 检查网络数据包
18
sudo tcpdump -i eth0 port 80
19
sudo tcpdump -i eth0 host 192.168.1.100
20
sudo wireshark  # 图形界面

网络服务故障排查#

Web服务器故障排查#

1
# 检查Web服务器状态
2
systemctl status nginx
3
systemctl status apache2
4

5
# 检查Web服务器日志
6
cat /var/log/nginx/error.log
7
cat /var/log/apache2/error.log
8

9
# 检查Web服务器配置
10
nginx -t
11
apache2ctl configtest
12

13
# 检查Web服务器端口
14
ss -tuln | grep "80"
15
ss -tuln | grep "443"
16

17
# 测试Web服务器响应
18
curl -I http://localhost
19
curl -I https://localhost

SSH服务器故障排查#

1
# 检查SSH服务器状态
2
systemctl status ssh
3
systemctl status sshd
4

5
# 检查SSH服务器日志
6
journalctl -u ssh
7
journalctl -u sshd
8

9
# 检查SSH服务器配置
10
cat /etc/ssh/sshd_config
11

12
# 检查SSH服务器端口
13
ss -tuln | grep "22"
14

15
# 测试SSH连接
16
ssh -v localhost
17
ssh -v user@server_ip

数据库服务器故障排查#

1
# 检查数据库服务器状态
2
systemctl status mysql
3
systemctl status postgresql
4

5
# 检查数据库服务器日志
6
cat /var/log/mysql/error.log
7
cat /var/log/postgresql/postgresql-13-main.log
8

9
# 检查数据库服务器端口
10
ss -tuln | grep "3306"  # MySQL
11
ss -tuln | grep "5432"  # PostgreSQL
12

13
# 测试数据库连接
14
mysql -u root -p
15
psql -U postgres

应用程序故障排查#

应用程序启动故障排查#

1
# 检查应用程序配置文件
2
cat /path/to/application/config
3

4
# 检查应用程序依赖项
5
ldd /path/to/application/executable
6

7
# 检查应用程序权限
8
ls -la /path/to/application/
9

10
# 检查应用程序日志
11
cat /path/to/application/log
12

13
# 检查应用程序端口
14
ss -tuln | grep "port_number"
15

16
# 以调试模式运行应用程序
17
/path/to/application/executable --debug

应用程序运行故障排查#

1
# 查看应用程序进程
2
ps aux | grep "application_name"
3

4
# 查看应用程序内存使用情况
5
pmap -x PID
6

7
# 查看应用程序打开的文件
8
lsof -p PID
9

10
# 查看应用程序网络连接
11
lsof -i -p PID
12

13
# 查看应用程序CPU使用情况
14
top -p PID
15

16
# 查看应用程序系统调用
17
strace -p PID  # 需要安装strace
18

19
# 查看应用程序性能
20
perf top -p PID  # 需要安装linux-tools
21

22
# 生成应用程序核心转储
23
gdb --batch --eval-command="generate-core-file" --pid=PID

安全故障排查#

安全事件排查#

1
# 检查登录记录
2
last
3
lastb
4

5
# 检查认证日志
6
cat /var/log/auth.log  # Debian/Ubuntu
7
cat /var/log/secure  # RHEL/CentOS
8
journalctl SYSLOG_FACILITY=10
9

10
# 检查sudo使用情况
11
cat /var/log/auth.log | grep "sudo"
12

13
# 检查文件权限变更
14
auditctl -l  # 需要安装auditd
15
auditd -k perm_mod  # 查看权限变更日志
16

17
# 检查网络连接
18
netstat -tulnp
19
ss -tulnp
20

21
# 检查系统调用
22
ausyscall --dump  # 查看系统调用列表

入侵检测#

1
# 检查异常进程
2
ps aux | grep "[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}"  # 可疑IP地址
3
ps aux | grep "\./"  # 当前目录执行的程序
4

5
# 检查异常文件
6
find / -name "*.sh" -mtime -1 -type f  # 最近1天修改的shell脚本
7
find / -perm -4000 -type f  # 具有SUID权限的文件
8

9
# 检查异常网络连接
10
netstat -tulnp | grep "ESTABLISHED"
11
ss -tulnp | grep "ESTABLISHED"
12

13
# 检查系统日志中的可疑活动
14
grep "Failed password" /var/log/auth.log
15
grep "Invalid user" /var/log/auth.log
16

17
# 使用安全扫描工具
18
nmap -sV localhost  # 端口扫描
19
openvas  # 漏洞扫描

日志分析故障排查#

日志文件位置#

常见的日志文件位置：

/var/log/syslog：Debian/Ubuntu系统的主要系统日志
/var/log/messages：RHEL/CentOS系统的主要系统日志
/var/log/auth.log：Debian/Ubuntu系统的认证日志
/var/log/secure：RHEL/CentOS系统的认证日志
/var/log/kern.log：内核日志
/var/log/boot.log：系统启动日志
/var/log/apache2/：Apache Web服务器日志
/var/log/nginx/：Nginx Web服务器日志
/var/log/mysql/：MySQL数据库日志

日志分析命令#

1
# 查看日志文件
2
cat /var/log/syslog
3
less /var/log/syslog
4

5
# 查看日志文件的最后几行
6
tail -n 100 /var/log/syslog
7
tail -f /var/log/syslog  # 实时查看
8

9
# 搜索日志文件中的关键词
10
grep "error" /var/log/syslog
11
grep "fail" /var/log/syslog
12
grep "warn" /var/log/syslog
13

14
# 搜索日志文件中的关键词（忽略大小写）
15
grep -i "error" /var/log/syslog
16

17
# 搜索日志文件中的多个关键词
18
grep -E "error|fail|warn" /var/log/syslog
19

20
# 搜索特定时间段的日志
21
grep "Feb  5" /var/log/syslog  # 特定日期
22
grep "10:00:00" /var/log/syslog  # 特定时间
23

24
# 统计日志文件中关键词的出现次数
25
grep -c "error" /var/log/syslog
26

27
# 查看日志文件中的唯一值
28
grep "error" /var/log/syslog | sort | uniq

日志分析工具#

logwatch#

logwatch命令用于分析系统日志并生成报告。

1
# 安装logwatch
2
sudo apt install -y logwatch  # Debian/Ubuntu
3
sudo yum install -y logwatch  # RHEL/CentOS
4

5
# 生成日志报告
6
logwatch
7

8
# 生成特定服务的日志报告
9
logwatch --service sshd
10
logwatch --service http
11

12
# 生成特定时间段的日志报告
13
logwatch --range today
14
logwatch --range yesterday
15
logwatch --range "last 7 days"
16

17
# 生成详细的日志报告
18
logwatch --detail high

journalctl#

journalctl命令用于查看和管理systemd日志。

1
# 查看所有日志
2
journalctl
3

4
# 查看最近的日志
5
journalctl -n 100
6

7
# 实时查看日志
8
journalctl -f
9

10
# 查看特定服务的日志
11
journalctl -u sshd
12
journalctl -u nginx
13

14
# 查看特定优先级的日志
15
journalctl -p err..emerg
16

17
# 查看特定时间段的日志
18
journalctl --since "2026-02-05 00:00:00" --until "2026-02-05 23:59:59"
19

20
# 导出日志到文件
21
journalctl -o json > logs.json
22
journalctl -o short > logs.txt

故障排查工具#

系统工具#

strace命令#

strace命令用于跟踪进程的系统调用，可用于排查应用程序问题。

1
# 安装strace
2
sudo apt install -y strace  # Debian/Ubuntu
3
sudo yum install -y strace  # RHEL/CentOS
4

5
# 跟踪进程的系统调用
6
strace -p PID
7

8
# 跟踪命令的系统调用
9
strace ls -la
10

11
# 跟踪特定系统调用
12
strace -e open,read,write ls -la
13

14
# 统计系统调用
15
strace -c ls -la
16

17
# 将输出保存到文件
18
strace -o strace.log ls -la

ltrace命令#

ltrace命令用于跟踪进程的库调用，可用于排查应用程序问题。

1
# 安装ltrace
2
sudo apt install -y ltrace  # Debian/Ubuntu
3
sudo yum install -y ltrace  # RHEL/CentOS
4

5
# 跟踪进程的库调用
6
ltrace -p PID
7

8
# 跟踪命令的库调用
9
ltrace ls -la
10

11
# 统计库调用
12
ltrace -c ls -la
13

14
# 将输出保存到文件
15
ltrace -o ltrace.log ls -la

gdb命令#

gdb命令用于调试程序，可用于排查应用程序崩溃问题。

1
# 安装gdb
2
sudo apt install -y gdb  # Debian/Ubuntu
3
sudo yum install -y gdb  # RHEL/CentOS
4

5
# 调试程序
6
gdb /path/to/executable
7

8
# 调试正在运行的进程
9
gdb -p PID
10

11
# 分析核心转储文件
12
gdb /path/to/executable /path/to/core
13

14
# gdb常用命令
15
# run: 运行程序
16
# break: 设置断点
17
# continue: 继续运行
18
# step: 单步执行
19
# print: 打印变量值
20
# backtrace: 显示调用栈
21
# quit: 退出gdb

perf命令#

perf命令用于分析系统性能，可用于排查性能问题。

1
# 安装perf
2
sudo apt install -y linux-tools-common  # Debian/Ubuntu
3
sudo yum install -y perf  # RHEL/CentOS
4

5
# 查看系统性能
6
top
7

8
# 查看进程性能
9
perf top -p PID
10

11
# 分析程序性能
12
perf record -g ls -la
13
perf report
14

15
# 分析系统调用
16
perf trace ls -la

网络工具#

tcpdump命令#

tcpdump命令用于捕获和分析网络数据包，可用于排查网络问题。

1
# 安装tcpdump
2
sudo apt install -y tcpdump  # Debian/Ubuntu
3
sudo yum install -y tcpdump  # RHEL/CentOS
4

5
# 捕获网络数据包
6
sudo tcpdump -i eth0
7

8
# 捕获特定端口的网络数据包
9
sudo tcpdump -i eth0 port 80
10

11
# 捕获特定IP的网络数据包
12
sudo tcpdump -i eth0 host 192.168.1.100
13

14
# 捕获特定协议的网络数据包
15
sudo tcpdump -i eth0 tcp
16

17
# 将输出保存到文件
18
sudo tcpdump -i eth0 -w capture.pcap
19

20
# 读取捕获文件
21
sudo tcpdump -r capture.pcap

netcat命令#

netcat命令用于测试网络连接，可用于排查网络服务问题。

1
# 安装netcat
2
sudo apt install -y netcat  # Debian/Ubuntu
3
sudo yum install -y nc  # RHEL/CentOS
4

5
# 测试TCP连接
6
nc -zv example.com 80
7

8
# 测试UDP连接
9
nc -zvu example.com 53
10

11
# 作为服务器监听端口
12
nc -l 8080
13

14
# 作为客户端连接服务器
15
nc server_ip 8080
16

17
# 传输文件
18
# 服务器端: nc -l 8080 > file.txt
19
# 客户端: nc server_ip 8080 < file.txt

mtr命令#

mtr命令用于测试网络连接质量，是ping和traceroute的结合。

1
# 安装mtr
2
sudo apt install -y mtr  # Debian/Ubuntu
3
sudo yum install -y mtr  # RHEL/CentOS
4

5
# 测试网络连接质量
6
mtr example.com
7

8
# 以报告模式运行
9
mtr -r example.com
10

11
# 设置数据包大小
12
mtr -s 1000 example.com
13

14
# 设置超时时间
15
mtr -T example.com

故障排查最佳实践#

1. 保持冷静#

故障发生时，保持冷静，不要惊慌。系统故障是常见的，大多数问题都可以解决。

2. 收集信息#

在开始故障排查之前，收集足够的信息，了解故障的症状和上下文。

3. 制定计划#

根据收集到的信息，制定故障排查计划，确定排查步骤和优先级。

4. 逐步排查#

按照计划逐步排查，每一步都要验证假设，避免盲目操作。

5. 记录过程#

记录故障排查过程，包括收集的信息、采取的措施和结果，便于未来参考。

6. 验证解决方案#

解决故障后，验证解决方案是否有效，确保系统恢复正常运行。

7. 分析原因#

分析故障原因，总结经验教训，避免类似故障再次发生。

8. 更新文档#

更新系统文档，记录故障原因和解决方案，便于团队成员参考。

常见故障及解决方案#

系统无法启动#

症状：系统无法启动，显示错误信息。

解决方案：

检查BIOS/UEFI设置
检查引导加载程序
检查文件系统
检查内核参数

服务无法启动#

症状：系统服务无法启动，显示错误信息。

解决方案：

检查服务配置文件
检查服务依赖项
检查服务日志
检查端口是否被占用

网络连接失败#

症状：系统无法连接到网络。

解决方案：

检查网络接口状态
检查网络配置
检查路由表
检查防火墙规则

磁盘空间不足#

症状：系统显示磁盘空间不足。

解决方案：

清理临时文件
删除不必要的文件
扩展文件系统
检查是否有大文件

内存使用过高#

症状：系统内存使用过高，导致性能下降。

解决方案：

检查内存使用情况
杀死占用内存的进程
增加系统内存
优化应用程序

CPU使用过高#

症状：系统CPU使用过高，导致性能下降。

解决方案：

检查CPU使用情况
杀死占用CPU的进程
优化应用程序
增加系统CPU

总结#

本文介绍了Linux系统中常用的故障排查命令和技巧，包括系统启动故障排查、系统运行故障排查、网络故障排查、应用程序故障排查、安全故障排查和日志分析等方面的内容。通过掌握这些命令和技巧，系统管理员可以更高效地排查和解决系统故障，提高系统的可靠性和可用性。

故障排查是一项需要经验和技巧的工作，需要系统管理员不断学习和实践，积累经验。在故障排查过程中，系统管理员需要保持冷静，收集足够的信息，制定合理的计划，逐步排查，验证假设，最终解决问题。同时，系统管理员还需要总结经验教训，避免类似故障再次发生，提高系统的稳定性和可靠性。

练习#

使用dmesg命令查看内核启动信息，排查启动过程中的问题。
使用top和mpstat命令监控系统CPU使用情况，排查CPU故障。
使用free和vmstat命令监控系统内存使用情况，排查内存故障。
使用df和iostat命令监控系统磁盘使用情况，排查磁盘故障。
使用ping、traceroute和tcpdump命令排查网络故障。
使用systemctl和journalctl命令排查服务故障。
使用ps、top和strace命令排查进程故障。
使用grep和logwatch命令分析系统日志，排查系统问题。
使用strace和ltrace命令跟踪进程的系统调用和库调用，排查应用程序问题。
制定一个完整的故障排查计划，包括收集信息、分析问题、解决问题和验证解决方案等步骤。

溪谷回声

这里是鹁鸪的思考之地

Linux故障排查命令和技巧

Linux故障排查命令和技巧#

故障排查概述#

故障排查步骤#

1. 收集信息#

2. 分析问题#

3. 解决问题#

系统启动故障排查#

启动过程#

启动故障排查命令#

dmesg命令#

journalctl命令#

grub命令#

fsck命令#

启动故障常见问题#

GRUB引导失败#

文件系统损坏#

内核崩溃#

系统运行故障排查#

系统资源故障排查#

CPU故障排查#

内存故障排查#

磁盘故障排查#

网络故障排查#

服务故障排查#

服务状态检查#

服务启动故障排查#

进程故障排查#

进程状态检查#

进程崩溃排查#

网络故障排查#

网络连接故障排查#

基本网络检查#

高级网络检查#

网络服务故障排查#

Web服务器故障排查#

SSH服务器故障排查#

数据库服务器故障排查#

应用程序故障排查#

应用程序启动故障排查#

应用程序运行故障排查#

安全故障排查#

安全事件排查#

入侵检测#

日志分析故障排查#

日志文件位置#

日志分析命令#

日志分析工具#

logwatch#

journalctl#

故障排查工具#

系统工具#

strace命令#

ltrace命令#

gdb命令#

perf命令#

网络工具#

tcpdump命令#

netcat命令#

mtr命令#

故障排查最佳实践#

1. 保持冷静#

2. 收集信息#

3. 制定计划#

4. 逐步排查#

5. 记录过程#

6. 验证解决方案#

7. 分析原因#

8. 更新文档#

常见故障及解决方案#

系统无法启动#

服务无法启动#

网络连接失败#

磁盘空间不足#

内存使用过高#

CPU使用过高#

总结#

练习#