Tu Primer Incidente
Aprende cómo crear, actualizar y resolver incidentes en ReliaPulse.
Visión General
Este tutorial cubre el ciclo de vida completo del incidente:
- Crear un incidente
- Añadir actualizaciones
- Resolver el incidente
- Escribir un postmortem
El Ciclo de Vida del Incidente
┌─────────────────────────────────────────────────────────────┐
│ │
│ ┌───────────┐ ┌────────────┐ ┌───────────┐ ┌────────┤
│ │Investigando│ → │ Identificado│ → │Monitoreando│ → │Resuelto│
│ └───────────┘ └────────────┘ └───────────┘ └────────┤
│ │
│ Reportar Causa raíz Solución Problema │
│ problema encontrada aplicada resuelto │
│ │
└─────────────────────────────────────────────────────────────┘Crear un Incidente
Cuando descubras un problema:
-
Navega a Dashboard > Incidentes
-
Haz clic en "Nuevo Incidente"
-
Completa los detalles:
Información Básica:
- Título:
Tiempos de Respuesta de API Elevados - Estado:
Investigando - Impacto: Elige el nivel de severidad
Componentes Afectados:
- Selecciona
API(o tu componente) - Establece el estado del componente a
Rendimiento Degradado
Mensaje Inicial:
Estamos investigando reportes de tiempos de respuesta lentos en la API. Algunos usuarios pueden experimentar retrasos al hacer solicitudes. Proporcionaremos actualizaciones a medida que tengamos más información. - Título:
-
Haz clic en "Crear Incidente"
El incidente aparece inmediatamente en tu página de estado pública, y los suscriptores reciben notificaciones.
Añadir una Actualización (Identificado)
Una vez que hayas encontrado la causa raíz:
- Abre el incidente desde la lista de incidentes
- Haz clic en "Añadir Actualización"
- Completa la actualización:
- Estado:
Identificado - Mensaje:
Hemos identificado la causa raíz como agotamiento del pool de conexiones de base de datos. Nuestro equipo está trabajando en aumentar el tamaño del pool e implementar gestión adicional de conexiones. - Estado:
- Opcionalmente actualiza el estado del componente (mantener como
Rendimiento Degradado) - Haz clic en "Publicar Actualización"
Añadir una Actualización (Monitoreando)
Después de aplicar una solución:
- Haz clic en "Añadir Actualización" de nuevo
- Completa la actualización:
- Estado:
Monitoreando - Mensaje:
Se ha desplegado una solución para aumentar la capacidad del pool de conexiones de base de datos. Los tiempos de respuesta están volviendo a niveles normales. Estamos monitoreando el sistema para asegurar estabilidad. - Estado:
- Haz clic en "Publicar Actualización"
Resolver el Incidente
Una vez que el problema esté completamente resuelto:
- Haz clic en "Añadir Actualización"
- Completa la resolución:
- Estado:
Resuelto - Mensaje:
Este incidente ha sido resuelto. Los tiempos de respuesta de la API han vuelto a niveles normales y han estado estables durante los últimos 30 minutos. Pedimos disculpas por cualquier inconveniente causado. - Estado:
- Importante: Actualiza el estado del componente a
Operacional - Haz clic en "Publicar Actualización"
El incidente ahora está marcado como resuelto y se mueve al historial de incidentes.
Escribir un Postmortem
Para incidentes significativos, añade un postmortem:
-
Abre el incidente resuelto
-
Haz clic en "Añadir Postmortem"
-
Escribe un análisis completo:
Resumen:
El [fecha], los usuarios experimentaron tiempos de respuesta elevados en la API durante aproximadamente 45 minutos debido a agotamiento del pool de conexiones de base de datos.Impacto:
- Duración: 45 minutos - Usuarios afectados: ~15% de solicitudes API - Servicios impactados: API, Aplicación WebCausa Raíz:
Un despliegue reciente aumentó el manejo de solicitudes concurrentes sin aumentar proporcionalmente el tamaño del pool de conexiones de base de datos. Durante el tráfico pico, las conexiones se agotaron, causando que las solicitudes se encolaran y expiraran.Línea de Tiempo:
14:23 - Alertas de monitoreo por tiempos de respuesta elevados 14:25 - Ingeniería notificada, investigación comienza 14:35 - Causa raíz identificada como agotamiento del pool de conexiones 14:45 - Aumento del tamaño del pool desplegado a producción 14:55 - Tiempos de respuesta normalizados 15:08 - Incidente resuelto después de monitoreo de estabilidadAcciones:
- [ ] Añadir métricas del pool de conexiones al dashboard de monitoreo - [ ] Crear checklist de despliegue para requerimientos de recursos - [ ] Implementar auto-scaling del pool de conexiones -
Activa "Publicar Postmortem" para mostrarlo en la página de estado
-
Haz clic en "Guardar"
Mejores Prácticas
Estilo de Comunicación
Hacer:
- Ser claro y conciso
- Usar lenguaje simple, evitar jerga
- Proporcionar tiempos estimados cuando sea posible
- Actualizar frecuentemente durante incidentes activos
No hacer:
- Hacer promesas que no puedes cumplir
- Culpar a individuos o equipos
- Usar lenguaje demasiado técnico
- Dejar a los usuarios sin actualizaciones por largos períodos
Frecuencia de Actualizaciones
| Fase del Incidente | Frecuencia de Actualización |
|---|---|
| Investigando | Cada 15-20 minutos |
| Identificado | Cada 20-30 minutos |
| Monitoreando | Cada 30-60 minutos |
| Resuelto | Solo actualización final |
Plantillas de Incidentes
Usa plantillas para mensajes consistentes:
- Navega a Configuración > Plantillas
- Crea plantillas para tipos comunes de incidentes:
- Problemas de red
- Problemas de base de datos
- Interrupciones de terceros
- Mantenimiento planificado
Las plantillas ahorran tiempo durante situaciones de alta presión y aseguran comunicación consistente.
Incidentes Automáticos
Los componentes ENDPOINT pueden crear automáticamente incidentes cuando los health checks fallan:
- Edita tu componente ENDPOINT
- Habilita "Auto Crear Incidente"
- Establece el umbral de fallos (ej., 3 fallos consecutivos)
- Configura el comportamiento de auto-resolución
Cuando el monitor detecta fallos:
- Se crea un incidente con estado
Investigando - El componente afectado se establece a
Interrupción Mayor - Cuando se recupera, el incidente se resuelve automáticamente
Próximos Pasos
- Aprende sobre monitores - Automatiza la creación de incidentes
- Configura notificaciones - Alerta a tu equipo
- Configura on-call - Escala a las personas correctas