Linux监控和告警命令和技巧#

监控和告警概述#

监控和告警是系统管理的重要组成部分，它可以帮助系统管理员实时了解系统状态，及时发现和解决问题，提高系统的可靠性和可用性。Linux系统提供了丰富的监控和告警工具，本文将介绍Linux系统中常用的监控和告警命令和技巧，帮助系统管理员更高效地监控和管理系统。

系统监控基础#

监控目标#

系统资源：CPU、内存、磁盘、网络等系统资源的使用情况
系统服务：系统服务的运行状态
应用程序：应用程序的运行状态和性能
安全事件：系统安全事件，如登录尝试、权限变更等
业务指标：业务相关的指标，如网站访问量、数据库查询时间等

监控级别#

基础监控：监控系统基本状态，如CPU、内存、磁盘使用情况
深度监控：监控系统详细状态，如进程、网络连接、文件系统等
业务监控：监控业务相关的指标，如响应时间、吞吐量等

告警级别#

信息：一般信息，如系统启动、服务重启等
警告：需要关注的情况，如资源使用接近阈值
错误：错误情况，如服务故障、磁盘空间不足等
严重：严重错误，如系统崩溃、数据丢失等

系统资源监控命令#

CPU监控#

top命令#

top命令用于实时监控系统CPU和内存使用情况。

1
# 启动top
2
top
3

4
# 常用快捷键
5
# h: 显示帮助
6
# 1: 显示所有CPU核心
7
# M: 按内存使用排序
8
# P: 按CPU使用排序
9
# T: 按时间排序
10
# k: 终止进程
11
# q: 退出
12

13
# 批处理模式运行top
14
top -b -n 1
15

16
# 显示特定进程的CPU使用情况
17
top -p 1234
18

19
# 每5秒更新一次，显示10次
20
top -d 5 -n 10

mpstat命令#

mpstat命令用于监控多处理器系统的CPU使用情况。

1
# 安装mpstat（Debian/Ubuntu）
2
sudo apt install -y sysstat
3

4
# 安装mpstat（RHEL/CentOS）
5
sudo yum install -y sysstat
6

7
# 监控所有CPU核心，每2秒更新一次
8
mpstat -P ALL 2
9

10
# 监控特定CPU核心，每2秒更新一次
11
mpstat -P 0 2
12

13
# 显示平均CPU使用情况
14
mpstat -A

sar命令#

sar命令用于收集、报告和保存系统活动信息，包括CPU、内存、磁盘、网络等。

1
# 安装sar（Debian/Ubuntu）
2
sudo apt install -y sysstat
3

4
# 安装sar（RHEL/CentOS）
5
sudo yum install -y sysstat
6

7
# 监控CPU使用情况，每2秒更新一次，显示5次
8
sar -u 2 5
9

10
# 监控所有CPU核心
11
sar -P ALL 2 5
12

13
# 查看历史CPU使用情况
14
sar -u -f /var/log/sysstat/sa25

内存监控#

free命令#

free命令用于显示系统内存使用情况。

1
# 显示内存使用情况
2
free
3

4
# 以人类可读格式显示
5
free -h
6

7
# 以MB为单位显示
8
free -m
9

10
# 以GB为单位显示
11
free -g
12

13
# 显示详细内存使用情况
14
free -v

vmstat命令#

vmstat命令用于显示虚拟内存统计信息。

1
# 显示虚拟内存统计信息
2
vmstat
3

4
# 每2秒更新一次，显示5次
5
vmstat 2 5
6

7
# 显示详细信息
8
vmstat -a
9

10
# 显示磁盘I/O统计信息
11
vmstat -d
12

13
# 显示内存页面统计信息
14
vmstat -p /dev/sda1

slabtop命令#

slabtop命令用于实时显示内核slab分配器的使用情况。

1
# 启动slabtop
2
slabtop
3

4
# 常用快捷键
5
# h: 显示帮助
6
# s: 按大小排序
7
# c: 按缓存数量排序
8
# a: 按活跃对象数量排序
9
# q: 退出
10

11
# 批处理模式运行slabtop
12
slabtop -s c -o

磁盘监控#

df命令#

df命令用于显示文件系统磁盘空间使用情况。

1
# 显示磁盘空间使用情况
2
df
3

4
# 以人类可读格式显示
5
df -h
6

7
# 显示所有文件系统
8
df -a
9

10
# 显示文件系统类型
11
df -T
12

13
# 显示inode使用情况
14
df -i

du命令#

du命令用于显示目录或文件的磁盘使用情况。

1
# 显示当前目录的磁盘使用情况
2
du
3

4
# 以人类可读格式显示
5
du -h
6

7
# 显示指定目录的磁盘使用情况
8
du -h /path/to/directory
9

10
# 显示指定目录的总磁盘使用情况
11
du -sh /path/to/directory
12

13
# 显示目录中前10个最大的文件或子目录
14
du -h --max-depth=1 /path/to/directory | sort -hr | head -10

iostat命令#

iostat命令用于监控磁盘I/O统计信息。

1
# 安装iostat（Debian/Ubuntu）
2
sudo apt install -y sysstat
3

4
# 安装iostat（RHEL/CentOS）
5
sudo yum install -y sysstat
6

7
# 显示磁盘I/O统计信息
8
iostat
9

10
# 以人类可读格式显示
11
iostat -h
12

13
# 每2秒更新一次，显示5次
14
iostat 2 5
15

16
# 显示详细信息
17
iostat -x
18

19
# 显示指定磁盘的I/O统计信息
20
iostat -x /dev/sda

网络监控#

ifconfig命令#

ifconfig命令用于显示网络接口配置和状态。

1
# 显示所有网络接口
2
ifconfig
3

4
# 显示特定网络接口
5
ifconfig eth0
6

7
# 启动网络接口
8
ifconfig eth0 up
9

10
# 关闭网络接口
11
ifconfig eth0 down
12

13
# 配置网络接口IP地址
14
ifconfig eth0 192.168.1.100 netmask 255.255.255.0

ip命令#

ip命令是新一代的网络配置工具，用于显示和配置网络接口。

1
# 显示所有网络接口
2
ip addr
3

4
# 显示特定网络接口
5
ip addr show eth0
6

7
# 显示路由表
8
ip route
9

10
# 显示网络连接
11
ip link
12

13
# 启动网络接口
14
ip link set eth0 up
15

16
# 关闭网络接口
17
ip link set eth0 down
18

19
# 配置网络接口IP地址
20
ip addr add 192.168.1.100/24 dev eth0

netstat命令#

netstat命令用于显示网络连接、路由表、接口统计等信息。

1
# 显示所有网络连接
2
netstat -a
3

4
# 显示TCP连接
5
netstat -t
6

7
# 显示UDP连接
8
netstat -u
9

10
# 显示监听状态的连接
11
netstat -l
12

13
# 显示进程信息
14
netstat -p
15

16
# 显示路由表
17
netstat -r
18

19
# 显示接口统计信息
20
netstat -i
21

22
# 显示网络统计信息
23
netstat -s
24

25
# 以数字形式显示
26
netstat -n

ss命令#

ss命令是netstat的替代品，用于显示网络连接信息，速度更快。

1
# 显示所有网络连接
2
ss -a
3

4
# 显示TCP连接
5
ss -t
6

7
# 显示UDP连接
8
ss -u
9

10
# 显示监听状态的连接
11
ss -l
12

13
# 显示进程信息
14
ss -p
15

16
# 显示路由表
17
ss -r
18

19
# 以数字形式显示
20
ss -n
21

22
# 显示特定端口的连接
23
ss -tulnp 'sport = :80'
24

25
# 显示特定IP的连接
26
ss -tulnp 'src = 192.168.1.100'

ping命令#

ping命令用于测试网络连接。

1
# 测试网络连接
2
ping example.com
3

4
# 测试网络连接（指定次数）
5
ping -c 5 example.com
6

7
# 测试网络连接（指定间隔）
8
ping -i 2 example.com
9

10
# 测试网络连接（指定数据包大小）
11
ping -s 1000 example.com
12

13
# 测试网络连接（禁用DNS解析）
14
ping -n example.com

traceroute命令#

traceroute命令用于追踪网络数据包的路由路径。

1
# 安装traceroute（Debian/Ubuntu）
2
sudo apt install -y traceroute
3

4
# 安装traceroute（RHEL/CentOS）
5
sudo yum install -y traceroute
6

7
# 追踪网络数据包的路由路径
8
traceroute example.com
9

10
# 追踪网络数据包的路由路径（使用ICMP）
11
traceroute -I example.com
12

13
# 追踪网络数据包的路由路径（使用TCP）
14
traceroute -T example.com
15

16
# 追踪网络数据包的路由路径（指定端口）
17
traceroute -T -p 80 example.com

进程监控命令#

ps命令#

ps命令用于显示进程状态。

1
# 显示所有进程
2
ps aux
3

4
# 显示所有进程（树形结构）
5
ps axjf
6

7
# 显示特定用户的进程
8
ps -u username
9

10
# 显示特定进程
11
ps -p 1234
12

13
# 按CPU使用排序
14
ps aux --sort=-%cpu | head -10
15

16
# 按内存使用排序
17
ps aux --sort=-%mem | head -10
18

19
# 显示进程详细信息
20
ps -ef | grep process_name

pstree命令#

pstree命令用于以树形结构显示进程。

1
# 安装pstree（Debian/Ubuntu）
2
sudo apt install -y psmisc
3

4
# 安装pstree（RHEL/CentOS）
5
sudo yum install -y psmisc
6

7
# 显示进程树形结构
8
pstree
9

10
# 显示进程ID
11
pstree -p
12

13
# 显示用户名称
14
pstree -u
15

16
# 显示特定进程的子进程
17
pstree -p 1234

pgrep命令#

pgrep命令用于根据进程名称或其他属性查找进程。

1
# 根据进程名称查找进程
2
pgrep process_name
3

4
# 根据进程名称查找进程（忽略大小写）
5
pgrep -i process_name
6

7
# 显示进程名称和ID
8
pgrep -l process_name
9

10
# 显示进程组ID
11
pgrep -g group_id
12

13
# 显示会话ID
14
pgrep -s session_id
15

16
# 显示父进程ID
17
pgrep -P parent_id

pidof命令#

pidof命令用于根据进程名称查找进程ID。

1
# 根据进程名称查找进程ID
2
pidof process_name
3

4
# 根据进程名称查找进程ID（忽略大小写）
5
pidof -i process_name
6

7
# 显示所有匹配的进程ID
8
pidof -s process_name

lsof命令#

lsof命令用于显示进程打开的文件。

1
# 安装lsof（Debian/Ubuntu）
2
sudo apt install -y lsof
3

4
# 安装lsof（RHEL/CentOS）
5
sudo yum install -y lsof
6

7
# 显示所有打开的文件
8
lsof
9

10
# 显示特定进程打开的文件
11
lsof -p 1234
12

13
# 显示特定用户打开的文件
14
lsof -u username
15

16
# 显示特定文件被哪些进程打开
17
lsof /path/to/file
18

19
# 显示特定目录下被打开的文件
20
lsof +D /path/to/directory
21

22
# 显示网络连接
23
lsof -i
24

25
# 显示特定端口的网络连接
26
lsof -i :80
27

28
# 显示特定协议的网络连接
29
lsof -i tcp

系统服务监控命令#

systemctl命令#

systemctl命令用于管理systemd服务。

1
# 显示所有服务的状态
2
systemctl list-units --type=service
3

4
# 显示运行中的服务
5
systemctl list-units --type=service --state=running
6

7
# 显示失败的服务
8
systemctl list-units --type=service --state=failed
9

10
# 显示特定服务的状态
11
systemctl status service_name
12

13
# 启动服务
14
systemctl start service_name
15

16
# 停止服务
17
systemctl stop service_name
18

19
# 重启服务
20
systemctl restart service_name
21

22
# 重新加载服务配置
23
systemctl reload service_name
24

25
# 启用服务（开机自启）
26
systemctl enable service_name
27

28
# 禁用服务（禁止开机自启）
29
systemctl disable service_name
30

31
# 查看服务依赖关系
32
systemctl list-dependencies service_name

service命令#

service命令是传统的服务管理命令，在使用systemd的系统中仍然可用。

1
# 显示特定服务的状态
2
service service_name status
3

4
# 启动服务
5
service service_name start
6

7
# 停止服务
8
service service_name stop
9

10
# 重启服务
11
service service_name restart
12

13
# 重新加载服务配置
14
service service_name reload

日志监控命令#

journalctl命令#

journalctl命令用于查看和管理systemd日志。

1
# 查看所有日志
2
journalctl
3

4
# 查看最近的日志
5
journalctl -n 100
6

7
# 实时查看日志
8
journalctl -f
9

10
# 查看特定服务的日志
11
journalctl -u service_name
12

13
# 查看特定优先级的日志
14
journalctl -p err..emerg
15

16
# 查看启动日志
17
journalctl -b
18

19
# 查看特定时间段的日志
20
journalctl --since "2026-02-05 00:00:00" --until "2026-02-05 23:59:59"
21

22
# 查看认证日志
23
journalctl SYSLOG_FACILITY=10

logwatch命令#

logwatch命令用于分析系统日志并生成报告。

1
# 安装logwatch（Debian/Ubuntu）
2
sudo apt install -y logwatch
3

4
# 安装logwatch（RHEL/CentOS）
5
sudo yum install -y logwatch
6

7
# 生成日志报告
8
logwatch
9

10
# 生成特定服务的日志报告
11
logwatch --service sshd
12

13
# 生成特定时间段的日志报告
14
logwatch --range today
15
logwatch --range yesterday
16
logwatch --range "last 7 days"
17

18
# 生成详细的日志报告
19
logwatch --detail high
20

21
# 将日志报告发送到邮箱
22
logwatch --mailto user@example.com

高级监控工具#

Nagios#

Nagios是一个流行的开源监控工具，它可以监控主机、服务和网络设备。

安装Nagios#

1
# 安装Nagios Core（Debian/Ubuntu）
2
sudo apt install -y nagios3
3

4
# 安装Nagios Core（RHEL/CentOS）
5
sudo yum install -y nagios
6

7
# 安装Nagios插件
8
sudo apt install -y nagios-plugins*  # Debian/Ubuntu
9
sudo yum install -y nagios-plugins*  # RHEL/CentOS
10

11
# 访问Nagios
12
# http://server_ip/nagios3

Nagios插件#

Nagios使用插件来监控各种资源，常用的插件包括：

check_cpu：监控CPU使用情况
check_mem：监控内存使用情况
check_disk：监控磁盘使用情况
check_load：监控系统负载
check_http：监控HTTP服务
check_ssh：监控SSH服务
check_ping：监控网络连接
check_mysql：监控MySQL服务

Zabbix#

Zabbix是一个功能强大的开源监控工具，它可以监控主机、服务和网络设备。

安装Zabbix#

1
# 安装Zabbix Server（Debian/Ubuntu）
2
sudo apt install -y zabbix-server-mysql zabbix-frontend-php zabbix-apache-conf zabbix-agent
3

4
# 安装Zabbix Server（RHEL/CentOS）
5
sudo yum install -y zabbix-server-mysql zabbix-web-mysql zabbix-agent
6

7
# 访问Zabbix
8
# http://server_ip/zabbix

Zabbix监控项#

Zabbix使用监控项来收集数据，常用的监控项包括：

system.cpu.load：系统负载
vm.memory.size：内存使用情况
vfs.fs.size：磁盘使用情况
net.if.in：网络入流量
net.if.out：网络出流量
proc.num：进程数量
net.tcp.port：TCP端口状态

Prometheus#

Prometheus是一个开源的监控系统，它使用时序数据库存储监控数据。

安装Prometheus#

1
# 下载Prometheus
2
wget https://github.com/prometheus/prometheus/releases/download/v2.30.0/prometheus-2.30.0.linux-amd64.tar.gz
3

4
tar xvfz prometheus-2.30.0.linux-amd64.tar.gz
5
cd prometheus-2.30.0.linux-amd64/
6

7
# 启动Prometheus
8
./prometheus --config.file=prometheus.yml
9

10
# 访问Prometheus
11
# http://server_ip:9090

Prometheus指标#

Prometheus使用指标来收集数据，常用的指标包括：

node_cpu_seconds_total：CPU使用时间
node_memory_MemTotal_bytes：总内存
node_memory_MemFree_bytes：空闲内存
node_filesystem_size_bytes：文件系统大小
node_filesystem_free_bytes：文件系统空闲空间
node_network_transmit_bytes_total：网络发送字节数
node_network_receive_bytes_total：网络接收字节数

Grafana#

Grafana是一个开源的可视化工具，它可以与Prometheus等监控工具集成，展示监控数据。

安装Grafana#

1
# 安装Grafana（Debian/Ubuntu）
2
sudo apt install -y grafana
3

4
# 安装Grafana（RHEL/CentOS）
5
sudo yum install -y grafana
6

7
# 启动Grafana
8
sudo systemctl start grafana-server
9
sudo systemctl enable grafana-server
10

11
# 访问Grafana
12
# http://server_ip:3000

Grafana仪表板#

Grafana使用仪表板来展示监控数据，常用的仪表板包括：

Node Exporter Full：展示节点详细信息
Prometheus 2.0 Stats：展示Prometheus自身状态
NGINX：展示NGINX状态
MySQL：展示MySQL状态

告警工具#

Alertmanager#

Alertmanager是Prometheus的告警组件，用于处理和发送告警。

安装Alertmanager#

1
# 下载Alertmanager
2
wget https://github.com/prometheus/alertmanager/releases/download/v0.22.0/alertmanager-0.22.0.linux-amd64.tar.gz
3

4
tar xvfz alertmanager-0.22.0.linux-amd64.tar.gz
5
cd alertmanager-0.22.0.linux-amd64/
6

7
# 启动Alertmanager
8
./alertmanager --config.file=alertmanager.yml
9

10
# 访问Alertmanager
11
# http://server_ip:9093

Alertmanager配置#

1
# alertmanager.yml 示例
2
global:
3
  resolve_timeout: 5m
4
  smtp_smarthost: 'smtp.example.com:587'
5
  smtp_from: 'alertmanager@example.com'
6
  smtp_auth_username: 'alertmanager'
7
  smtp_auth_password: 'password'
8

9
route:
10
  group_by: ['alertname']
11
  group_wait: 30s
12
  group_interval: 5m
13
  repeat_interval: 1h
14
  receiver: 'email'
15

16
receivers:
17
- name: 'email'
18
  email_configs:
19
  - to: 'admin@example.com'
20
    send_resolved: true
21

22
inhibit_rules:
23
  - source_match:
24
      severity: 'critical'
25
    target_match:
26
      severity: 'warning'
27
    equal: ['alertname', 'dev', 'instance']

Nagios告警#

Nagios使用通知机制发送告警，可以通过邮件、短信等方式发送。

Nagios告警配置#

1
# 编辑Nagios联系人配置
2
sudo nano /etc/nagios3/conf.d/contacts_nagios2.cfg  # Debian/Ubuntu
3
sudo nano /etc/nagios/objects/contacts.cfg  # RHEL/CentOS
4

5
# 联系人配置示例
6
# define contact {
7
#   contact_name            admin
8
#   alias                   Administrator
9
#   email                   admin@example.com
10
#   service_notification_period     24x7
11
#   host_notification_period        24x7
12
#   service_notification_options    w,u,c,r
13
#   host_notification_options       d,u,r
14
#   service_notification_commands   notify-service-by-email
15
#   host_notification_commands      notify-host-by-email
16
# }

Zabbix告警#

Zabbix使用动作机制发送告警，可以通过邮件、短信、微信等方式发送。

Zabbix告警配置#

创建媒介：配置邮件服务器、短信网关等
创建用户：配置用户信息和媒介
创建动作：配置告警触发条件和通知方式
创建触发器：配置告警触发条件

监控脚本编写#

基础监控脚本#

1
#!/bin/bash
2

3
# 系统资源监控脚本
4

5
# 获取当前时间
6
TIME=$(date +"%Y-%m-%d %H:%M:%S")
7

8
# 获取CPU使用率
9
CPU_USAGE=$(top -b -n 1 | grep "Cpu(s)" | awk '{print $2 + $4}')
10

11
# 获取内存使用率
12
MEMORY_TOTAL=$(free -m | grep "Mem:" | awk '{print $2}')
13
MEMORY_USED=$(free -m | grep "Mem:" | awk '{print $3}')
14
MEMORY_USAGE=$(echo "scale=2; $MEMORY_USED / $MEMORY_TOTAL * 100" | bc)
15

16
# 获取磁盘使用率
17
DISK_USAGE=$(df -h | grep "/dev/sda1" | awk '{print $5}' | sed 's/%//')
18

19
# 获取系统负载
20
LOAD_AVERAGE=$(uptime | awk '{print $10 $11 $12}')
21

22
# 输出监控结果
23
echo "[$TIME] CPU使用率: $CPU_USAGE% 内存使用率: $MEMORY_USAGE% 磁盘使用率: $DISK_USAGE% 系统负载: $LOAD_AVERAGE"
24

25
# 检查是否需要发送告警
26
if (( $(echo "$CPU_USAGE > 80" | bc -l) )); then
27
    echo "告警: CPU使用率超过80%"
28
    # 发送告警邮件
29
    # echo "CPU使用率超过80%" | mail -s "系统告警" admin@example.com
30
fi
31

32
if (( $(echo "$MEMORY_USAGE > 80" | bc -l) )); then
33
    echo "告警: 内存使用率超过80%"
34
    # 发送告警邮件
35
    # echo "内存使用率超过80%" | mail -s "系统告警" admin@example.com
36
fi
37

38
if (( $DISK_USAGE > 80 )); then
39
    echo "告警: 磁盘使用率超过80%"
40
    # 发送告警邮件
41
    # echo "磁盘使用率超过80%" | mail -s "系统告警" admin@example.com
42
fi

服务监控脚本#

1
#!/bin/bash
2

3
# 服务监控脚本
4

5
# 服务列表
6
SERVICES=("ssh" "nginx" "mysql")
7

8
# 获取当前时间
9
TIME=$(date +"%Y-%m-%d %H:%M:%S")
10

11
# 检查服务状态
12
for SERVICE in "${SERVICES[@]}"; do
13
    STATUS=$(systemctl status $SERVICE 2>/dev/null | grep "Active:" | awk '{print $2}')
14
    if [ "$STATUS" = "active" ]; then
15
        echo "[$TIME] 服务 $SERVICE 运行正常"
16
    else
17
        echo "[$TIME] 告警: 服务 $SERVICE 异常"
18
        # 发送告警邮件
19
        # echo "服务 $SERVICE 异常" | mail -s "服务告警" admin@example.com
20
        # 尝试重启服务
21
        # systemctl restart $SERVICE
22
    fi
23
done

网络监控脚本#

1
#!/bin/bash
2

3
# 网络监控脚本
4

5
# 目标IP列表
6
TARGETS=("8.8.8.8" "1.1.1.1" "example.com")
7

8
# 获取当前时间
9
TIME=$(date +"%Y-%m-%d %H:%M:%S")
10

11
# 检查网络连接
12
for TARGET in "${TARGETS[@]}"; do
13
    ping -c 1 -W 2 $TARGET > /dev/null 2>&1
14
    if [ $? -eq 0 ]; then
15
        echo "[$TIME] 网络连接 $TARGET 正常"
16
    else
17
        echo "[$TIME] 告警: 网络连接 $TARGET 异常"
18
        # 发送告警邮件
19
        # echo "网络连接 $TARGET 异常" | mail -s "网络告警" admin@example.com
20
    fi
21
done

监控和告警最佳实践#

监控最佳实践#

制定监控策略：根据业务需求制定合理的监控策略
选择合适的监控工具：根据系统规模和需求选择合适的监控工具
设置合理的监控阈值：根据系统实际情况设置合理的监控阈值
监控所有关键组件：监控系统所有关键组件，包括硬件、软件和网络
定期审查监控配置：定期审查监控配置，确保监控覆盖所有关键指标
备份监控配置：备份监控配置，防止配置丢失
文档化监控：记录监控策略、配置和流程，便于团队成员理解
培训团队成员：培训团队成员使用监控工具，提高监控效率

告警最佳实践#

设置合理的告警阈值：根据系统实际情况设置合理的告警阈值，避免误报
分级告警：根据告警级别设置不同的处理流程
告警聚合：聚合相关的告警，避免告警风暴
告警抑制：在维护期间抑制告警，避免误报
告警升级：设置告警升级机制，确保告警得到及时处理
告警验证：验证告警的真实性，避免误报
告警统计：统计告警情况，分析系统问题
告警自动化：自动化处理常见告警，提高处理效率

常见问题及解决方案#

监控数据不准确#

症状：监控工具显示的数据与实际情况不符。

解决方案：

检查监控工具配置
检查监控插件是否正常工作
检查系统时间是否同步
检查网络连接是否正常

告警过多#

症状：系统产生过多告警，导致告警疲劳。

解决方案：

调整告警阈值
聚合相关告警
优化监控配置
自动化处理常见告警

告警延迟#

症状：告警产生后，通知延迟。

解决方案：

检查告警工具配置
检查邮件服务器、短信网关等是否正常
优化告警处理流程

监控工具性能问题#

症状：监控工具占用过多系统资源，影响系统性能。

解决方案：

调整监控工具配置
减少监控频率
优化监控查询
升级监控服务器硬件

总结#

本文介绍了Linux系统中常用的监控和告警命令和技巧，包括系统资源监控、系统服务监控、进程监控、日志监控等方面的内容。通过掌握这些命令和技巧，系统管理员可以更高效地监控和管理系统，及时发现和解决问题，提高系统的可靠性和可用性。

监控和告警是一个持续的过程，需要系统管理员不断学习和实践，根据系统的实际情况选择合适的监控工具和策略，建立完善的监控和告警体系。随着技术的不断发展，监控和告警工具也在不断演进，系统管理员需要保持学习的态度，及时更新知识，以适应新的挑战和机遇。

练习#

使用top命令监控系统CPU和内存使用情况。
使用iostat命令监控磁盘I/O统计信息。
使用ss命令监控网络连接。
使用systemctl命令监控系统服务状态。
使用journalctl命令监控系统日志。
安装并配置Nagios，监控系统基本状态。
安装并配置Prometheus和Grafana，监控系统详细状态。
编写一个系统资源监控脚本，实现自动告警功能。
编写一个服务监控脚本，实现服务自动重启功能。
制定一个完整的监控和告警策略，包括监控目标、告警级别和处理流程。

溪谷回声

记录每一次探索与抵达

Linux监控和告警命令和技巧

Linux监控和告警命令和技巧#

监控和告警概述#

系统监控基础#

监控目标#

监控级别#

告警级别#

系统资源监控命令#

CPU监控#

top命令#

mpstat命令#

sar命令#

内存监控#

free命令#

vmstat命令#

slabtop命令#

磁盘监控#

df命令#

du命令#

iostat命令#

网络监控#

ifconfig命令#

ip命令#

netstat命令#

ss命令#

ping命令#

traceroute命令#

进程监控命令#

ps命令#

pstree命令#

pgrep命令#

pidof命令#

lsof命令#

系统服务监控命令#

systemctl命令#

service命令#

日志监控命令#

journalctl命令#

logwatch命令#

高级监控工具#

Nagios#

安装Nagios#

Nagios插件#

Zabbix#

安装Zabbix#

Zabbix监控项#

Prometheus#

安装Prometheus#

Prometheus指标#

Grafana#

安装Grafana#

Grafana仪表板#

告警工具#

Alertmanager#

安装Alertmanager#

Alertmanager配置#

Nagios告警#

Nagios告警配置#

Zabbix告警#

Zabbix告警配置#

监控脚本编写#

基础监控脚本#

服务监控脚本#

网络监控脚本#

监控和告警最佳实践#

监控最佳实践#

告警最佳实践#

常见问题及解决方案#

监控数据不准确#

告警过多#

告警延迟#

监控工具性能问题#

总结#

练习#

支持与分享

评论区

目录