术语解释
灵王安全运维平台核心概念与术语说明
基础概念
用户 (User)
平台账号。用户拥有邮箱、密码、手机号等基本信息,通过角色(Role)区分权限。
租户 (Tenant)
平台级别的租户划分,保留用于多租户场景。普通用户通常不直接感知租户概念。
团队 (Team / 值班组)
核心组织单元。用于将成员分组、分配告警、设置排班和升级策略。每个团队有独立的 ID、名称和描述。
团队成员 (TeamMember)
用户与团队的关联关系。一个用户可以属于多个团队。
团队邀请 (TeamInvitation)
邀请新成员加入团队时的记录,包含邀请状态(pending / accepted / declined)。
告警 (Alert)
告警实例
从监控源接收的具体告警事件,是平台的核心业务对象。
| 字段 | 说明 |
|---|---|
source |
来源类型:prometheus / webhook / zabbix / grafana / manual |
source_id |
外部系统中的原始告警 ID |
fingerprint |
用于去重分组的指纹标识 |
name |
告警名称 |
status |
状态:firing / acknowledged / resolved / suppressed |
severity |
严重程度:critical / high / medium / low / info |
labels |
标签集合(JSON),用于路由和分组 |
annotations |
注解集合(JSON),用于展示详情和通知内容 |
starts_at |
告警触发时间 |
ends_at |
告警结束时间(resolved 时填充) |
告警状态 (Alert Status)
| 状态 | 说明 |
|---|---|
firing |
告警正在触发中 |
acknowledged |
已被值班人员确认 |
resolved |
告警已解决 |
suppressed |
被静默规则抑制,不发送通知 |
告警严重程度 (Severity)
| 级别 | 说明 |
|---|---|
critical |
紧急 — 立即处理 |
high |
高 — 尽快处理 |
medium |
中 — 正常工作时间内处理 |
low |
低 — 可延后处理 |
info |
信息 — 仅记录 |
告警来源 (Source)
| 来源 | 说明 |
|---|---|
prometheus |
Prometheus Alertmanager 推送 |
webhook |
通用 HTTP Webhook 接入 |
zabbix |
Zabbix 监控告警 |
grafana |
Grafana 告警 |
manual |
手动创建 |
告警规则 (AlertRule)
对告警进行静默、抑制、去重、路由的规则配置。
| 规则类型 | 说明 |
|---|---|
silence |
静默规则 — 在指定时间段内屏蔽匹配条件的告警 |
suppress |
抑制规则 — 阻止告警发送通知 |
dedup |
去重规则 — 将重复告警合并 |
route |
路由规则 — 将告警分配到指定团队或人员 |
Labels 与 Annotations
- Labels(标签):用于告警分类、路由和分组,例如
alertname、severity、instance、team_id - Annotations(注解):用于展示给人员的描述信息,例如
summary(摘要)、description(详情)、runbook_url(应急手册链接)
Fingerprint (指纹)
由来源、告警名称、标签等组合生成的唯一标识,用于告警去重和分组。
故障 (Incident)
事件/故障单
将一个或多个相关告警升级为故障进行跟踪处置。
| 字段 | 说明 |
|---|---|
title |
故障标题 |
description |
故障描述 |
severity |
严重程度:critical / high / medium / low |
status |
状态:open / acknowledged / resolved / closed |
alert_ids |
关联的告警 ID 列表 |
timeline |
时间线记录(JSON),记录所有操作和状态变更 |
runbook_url |
应急手册链接 |
postmortem |
故障复盘文档 |
故障状态 (Incident Status)
| 状态 | 说明 |
|---|---|
open |
新建,故障已确认 |
acknowledged |
已有人员受理 |
resolved |
故障已解决 |
closed |
故障已关闭(通常在复盘完成后) |
排班与 On-Call
排班计划 (Schedule)
定义团队的值班安排。
| 字段 | 说明 |
|---|---|
name |
排班名称 |
timezone |
时区,如 Asia/Shanghai |
rotation |
轮班方式:daily(每日)/ weekly(每周)/ custom(自定义) |
排班班次 (ScheduleShift)
具体的值班时段。
| 字段 | 说明 |
|---|---|
user_id |
值班人员 ID |
start_time |
班次开始时间 |
end_time |
班次结束时间 |
type |
类型:regular(常规)/ override(替班)/ holiday(节假日) |
On-Call
值班制度。确保任何时间都有人员可响应告警。
升级策略 (Escalation Policy)
升级策略 (EscalationPolicy)
告警在超时未响应时自动升级的规则配置。
| 字段 | 说明 |
|---|---|
name |
策略名称 |
rules |
升级步骤列表(JSON),定义每级的等待时间和通知目标 |
升级链路
多级通知链,例如: 1. 第 0 分钟 → 值班人员 2. 第 5 分钟未响应 → 组长 3. 第 15 分钟未响应 → 运维经理
通知渠道 (Notification Channel)
通知渠道 (NotificationChannel)
告警通知的发送通道。
| 渠道类型 | 说明 |
|---|---|
feishu |
飞书 |
wecom |
企业微信 |
dingtalk |
钉钉 |
email |
邮件 |
sms |
短信 |
phone |
电话 |
通知发送状态 (Notification Status)
| 状态 | 说明 |
|---|---|
pending |
等待发送 |
sent |
已发送 |
delivered |
已送达 |
failed |
发送失败 |
SLA 与报表
SLA 报表 (SlaReport)
告警处理统评报告。
| 指标 | 说明 |
|---|---|
total_alerts |
周期内总告警数 |
resolved_alerts |
已解决告警数 |
acked_alerts |
已确认告警数 |
avg_mtta |
平均确认时间(分钟)Mean Time To Acknowledge |
avg_mttr |
平均解决时间(分钟)Mean Time To Resolve |
MTTA (Mean Time To Acknowledge)
从告警触发到被值班人员确认的平均耗时。
MTTR (Mean Time To Resolve)
从告警触发到被解决处理的平均耗时。
监控目标 (Monitor Target)
监控目标 (MonitorTarget)
平台管理的监控数据源配置。
| 字段 | 说明 |
|---|---|
name |
目标名称 |
type |
类型:prometheus / zabbix / agent / custom |
endpoint |
接入地址(URL 或 host:port) |
auth_type |
认证方式:none / basic / bearer / api_key |
last_seen_at |
最后一次采集时间 |
Agent
部署在服务器上的轻量级采集代理,用于零运维场景的服务器监控。自动采集 HTTP 健康探测、TCP 端口、系统指标(CPU/内存/磁盘)、进程存活状态。
审计与权限
审计日志 (AuditLog)
记录用户在平台上的关键操作。
| 字段 | 说明 |
|---|---|
user_id |
操作人 |
action |
操作类型 |
resource |
资源类型 |
resource_id |
资源 ID |
detail |
操作详情(JSON) |
ip |
客户端 IP 地址 |
用户角色 (User Role)
| 角色 | 说明 |
|---|---|
platform_owner |
平台所有者,拥有最高权限 |
member |
普通成员 |
用户状态 (User Status)
| 状态 | 说明 |
|---|---|
active |
正常 |
inactive |
已停用 |
RBAC
Role-Based Access Control,基于角色的访问控制。通过角色分配实现精细化的权限管理。
接入相关
Webhook
HTTP 回调接口。外部系统通过 POST 请求将告警数据推送到平台。
Prometheus Alertmanager
Prometheus 生态的告警管理组件。通过 Webhook 与平台对接,将告警转发给灵王 OPS 处理。
Zabbix
企业级监控解决方案。通过自定义媒体类型(Webhook 脚本)接入平台。
Grafana
可视化监控平台。支持告警规则配置,可通过 Webhook 方式将告警接入。
技术术语
JWT
JSON Web Token,用于 API 认证的无状态令牌。
Fingerprint (告警指纹)
由告警来源、名称、标签等组合生成的哈希值,用于告警去重和分组。
Group By / Grouping
告警分组。将满足相同条件的告警归为一组,避免告警风暴。
group_wait
Alertmanager 配置项,收到告警后等待一定时间再发送通知,用于等待告警稳定。
group_interval
Alertmanager 配置项,同一组告警变更后再次通知的间隔。
repeat_interval
Alertmanager 配置项,告警持续未解决时的重复通知间隔。
告警风暴 (Alert Storm)
大量相似告警在短时间内集中爆发,可能导致通知通道阻塞。
Runbook
应急操作手册,提供告警/故障的处理步骤指引。
Postmortem
故障复盘报告,记录故障原因、处理过程和改进措施。