术语解释

灵王安全运维平台核心概念与术语说明


基础概念

用户 (User)

平台账号。用户拥有邮箱、密码、手机号等基本信息,通过角色(Role)区分权限。

租户 (Tenant)

平台级别的租户划分,保留用于多租户场景。普通用户通常不直接感知租户概念。

团队 (Team / 值班组)

核心组织单元。用于将成员分组、分配告警、设置排班和升级策略。每个团队有独立的 ID、名称和描述。

团队成员 (TeamMember)

用户与团队的关联关系。一个用户可以属于多个团队。

团队邀请 (TeamInvitation)

邀请新成员加入团队时的记录,包含邀请状态(pending / accepted / declined)。


告警 (Alert)

告警实例

从监控源接收的具体告警事件,是平台的核心业务对象。

字段 说明
source 来源类型:prometheus / webhook / zabbix / grafana / manual
source_id 外部系统中的原始告警 ID
fingerprint 用于去重分组的指纹标识
name 告警名称
status 状态:firing / acknowledged / resolved / suppressed
severity 严重程度:critical / high / medium / low / info
labels 标签集合(JSON),用于路由和分组
annotations 注解集合(JSON),用于展示详情和通知内容
starts_at 告警触发时间
ends_at 告警结束时间(resolved 时填充)

告警状态 (Alert Status)

状态 说明
firing 告警正在触发中
acknowledged 已被值班人员确认
resolved 告警已解决
suppressed 被静默规则抑制,不发送通知

告警严重程度 (Severity)

级别 说明
critical 紧急 — 立即处理
high 高 — 尽快处理
medium 中 — 正常工作时间内处理
low 低 — 可延后处理
info 信息 — 仅记录

告警来源 (Source)

来源 说明
prometheus Prometheus Alertmanager 推送
webhook 通用 HTTP Webhook 接入
zabbix Zabbix 监控告警
grafana Grafana 告警
manual 手动创建

告警规则 (AlertRule)

对告警进行静默、抑制、去重、路由的规则配置。

规则类型 说明
silence 静默规则 — 在指定时间段内屏蔽匹配条件的告警
suppress 抑制规则 — 阻止告警发送通知
dedup 去重规则 — 将重复告警合并
route 路由规则 — 将告警分配到指定团队或人员

Labels 与 Annotations

  • Labels(标签):用于告警分类、路由和分组,例如 alertnameseverityinstanceteam_id
  • Annotations(注解):用于展示给人员的描述信息,例如 summary(摘要)、description(详情)、runbook_url(应急手册链接)

Fingerprint (指纹)

由来源、告警名称、标签等组合生成的唯一标识,用于告警去重和分组。


故障 (Incident)

事件/故障单

将一个或多个相关告警升级为故障进行跟踪处置。

字段 说明
title 故障标题
description 故障描述
severity 严重程度:critical / high / medium / low
status 状态:open / acknowledged / resolved / closed
alert_ids 关联的告警 ID 列表
timeline 时间线记录(JSON),记录所有操作和状态变更
runbook_url 应急手册链接
postmortem 故障复盘文档

故障状态 (Incident Status)

状态 说明
open 新建,故障已确认
acknowledged 已有人员受理
resolved 故障已解决
closed 故障已关闭(通常在复盘完成后)

排班与 On-Call

排班计划 (Schedule)

定义团队的值班安排。

字段 说明
name 排班名称
timezone 时区,如 Asia/Shanghai
rotation 轮班方式:daily(每日)/ weekly(每周)/ custom(自定义)

排班班次 (ScheduleShift)

具体的值班时段。

字段 说明
user_id 值班人员 ID
start_time 班次开始时间
end_time 班次结束时间
type 类型:regular(常规)/ override(替班)/ holiday(节假日)

On-Call

值班制度。确保任何时间都有人员可响应告警。


升级策略 (Escalation Policy)

升级策略 (EscalationPolicy)

告警在超时未响应时自动升级的规则配置。

字段 说明
name 策略名称
rules 升级步骤列表(JSON),定义每级的等待时间和通知目标

升级链路

多级通知链,例如: 1. 第 0 分钟 → 值班人员 2. 第 5 分钟未响应 → 组长 3. 第 15 分钟未响应 → 运维经理


通知渠道 (Notification Channel)

通知渠道 (NotificationChannel)

告警通知的发送通道。

渠道类型 说明
feishu 飞书
wecom 企业微信
dingtalk 钉钉
email 邮件
sms 短信
phone 电话

通知发送状态 (Notification Status)

状态 说明
pending 等待发送
sent 已发送
delivered 已送达
failed 发送失败

SLA 与报表

SLA 报表 (SlaReport)

告警处理统评报告。

指标 说明
total_alerts 周期内总告警数
resolved_alerts 已解决告警数
acked_alerts 已确认告警数
avg_mtta 平均确认时间(分钟)Mean Time To Acknowledge
avg_mttr 平均解决时间(分钟)Mean Time To Resolve

MTTA (Mean Time To Acknowledge)

从告警触发到被值班人员确认的平均耗时。

MTTR (Mean Time To Resolve)

从告警触发到被解决处理的平均耗时。


监控目标 (Monitor Target)

监控目标 (MonitorTarget)

平台管理的监控数据源配置。

字段 说明
name 目标名称
type 类型:prometheus / zabbix / agent / custom
endpoint 接入地址(URL 或 host:port)
auth_type 认证方式:none / basic / bearer / api_key
last_seen_at 最后一次采集时间

Agent

部署在服务器上的轻量级采集代理,用于零运维场景的服务器监控。自动采集 HTTP 健康探测、TCP 端口、系统指标(CPU/内存/磁盘)、进程存活状态。


审计与权限

审计日志 (AuditLog)

记录用户在平台上的关键操作。

字段 说明
user_id 操作人
action 操作类型
resource 资源类型
resource_id 资源 ID
detail 操作详情(JSON)
ip 客户端 IP 地址

用户角色 (User Role)

角色 说明
platform_owner 平台所有者,拥有最高权限
member 普通成员

用户状态 (User Status)

状态 说明
active 正常
inactive 已停用

RBAC

Role-Based Access Control,基于角色的访问控制。通过角色分配实现精细化的权限管理。


接入相关

Webhook

HTTP 回调接口。外部系统通过 POST 请求将告警数据推送到平台。

Prometheus Alertmanager

Prometheus 生态的告警管理组件。通过 Webhook 与平台对接,将告警转发给灵王 OPS 处理。

Zabbix

企业级监控解决方案。通过自定义媒体类型(Webhook 脚本)接入平台。

Grafana

可视化监控平台。支持告警规则配置,可通过 Webhook 方式将告警接入。


技术术语

JWT

JSON Web Token,用于 API 认证的无状态令牌。

Fingerprint (告警指纹)

由告警来源、名称、标签等组合生成的哈希值,用于告警去重和分组。

Group By / Grouping

告警分组。将满足相同条件的告警归为一组,避免告警风暴。

group_wait

Alertmanager 配置项,收到告警后等待一定时间再发送通知,用于等待告警稳定。

group_interval

Alertmanager 配置项,同一组告警变更后再次通知的间隔。

repeat_interval

Alertmanager 配置项,告警持续未解决时的重复通知间隔。

告警风暴 (Alert Storm)

大量相似告警在短时间内集中爆发,可能导致通知通道阻塞。

Runbook

应急操作手册,提供告警/故障的处理步骤指引。

Postmortem

故障复盘报告,记录故障原因、处理过程和改进措施。