Tu Primer Incidente

Aprende cómo crear, actualizar y resolver incidentes en ReliaPulse.

Visión General

Este tutorial cubre el ciclo de vida completo del incidente:

Crear un incidente
Añadir actualizaciones
Resolver el incidente
Escribir un postmortem

El Ciclo de Vida del Incidente

   ┌─────────────────────────────────────────────────────────────┐
   │                                                             │
   │  ┌───────────┐   ┌────────────┐   ┌───────────┐   ┌────────┤
   │  │Investigando│ → │ Identificado│ → │Monitoreando│ → │Resuelto│
   │  └───────────┘   └────────────┘   └───────────┘   └────────┤
   │                                                             │
   │     Reportar       Causa raíz      Solución       Problema  │
   │     problema       encontrada      aplicada       resuelto  │
   │                                                             │
   └─────────────────────────────────────────────────────────────┘

Crear un Incidente

Cuando descubras un problema:

Navega a Dashboard > Incidentes
Haz clic en "Nuevo Incidente"
Completa los detalles:

Información Básica:
- Título: Tiempos de Respuesta de API Elevados
- Estado: Investigando
- Impacto: Elige el nivel de severidad
Componentes Afectados:
- Selecciona API (o tu componente)
- Establece el estado del componente a Rendimiento Degradado
Mensaje Inicial:
```
Estamos investigando reportes de tiempos de respuesta lentos en la API.
Algunos usuarios pueden experimentar retrasos al hacer solicitudes.
Proporcionaremos actualizaciones a medida que tengamos más información.
```
Haz clic en "Crear Incidente"

El incidente aparece inmediatamente en tu página de estado pública, y los suscriptores reciben notificaciones.

Añadir una Actualización (Identificado)

Una vez que hayas encontrado la causa raíz:

Abre el incidente desde la lista de incidentes
Haz clic en "Añadir Actualización"

Completa la actualización:

Estado: Identificado
Mensaje:

Hemos identificado la causa raíz como agotamiento del pool de conexiones
de base de datos. Nuestro equipo está trabajando en aumentar el tamaño
del pool e implementar gestión adicional de conexiones.

Opcionalmente actualiza el estado del componente (mantener como Rendimiento Degradado)
Haz clic en "Publicar Actualización"

Añadir una Actualización (Monitoreando)

Después de aplicar una solución:

Haz clic en "Añadir Actualización" de nuevo

Completa la actualización:

Estado: Monitoreando
Mensaje:

Se ha desplegado una solución para aumentar la capacidad del pool de
conexiones de base de datos. Los tiempos de respuesta están volviendo
a niveles normales. Estamos monitoreando el sistema para asegurar
estabilidad.

Haz clic en "Publicar Actualización"

Resolver el Incidente

Una vez que el problema esté completamente resuelto:

Haz clic en "Añadir Actualización"

Completa la resolución:

Estado: Resuelto
Mensaje:

Este incidente ha sido resuelto. Los tiempos de respuesta de la API
han vuelto a niveles normales y han estado estables durante los
últimos 30 minutos.

Pedimos disculpas por cualquier inconveniente causado.

Importante: Actualiza el estado del componente a Operacional
Haz clic en "Publicar Actualización"

El incidente ahora está marcado como resuelto y se mueve al historial de incidentes.

Escribir un Postmortem

Para incidentes significativos, añade un postmortem:

Abre el incidente resuelto
Haz clic en "Añadir Postmortem"

Escribe un análisis completo:

Resumen:

El [fecha], los usuarios experimentaron tiempos de respuesta elevados
en la API durante aproximadamente 45 minutos debido a agotamiento del
pool de conexiones de base de datos.

Impacto:

- Duración: 45 minutos
- Usuarios afectados: ~15% de solicitudes API
- Servicios impactados: API, Aplicación Web

Causa Raíz:

Un despliegue reciente aumentó el manejo de solicitudes concurrentes sin
aumentar proporcionalmente el tamaño del pool de conexiones de base de datos.
Durante el tráfico pico, las conexiones se agotaron, causando que las
solicitudes se encolaran y expiraran.

Línea de Tiempo:

14:23 - Alertas de monitoreo por tiempos de respuesta elevados
14:25 - Ingeniería notificada, investigación comienza
14:35 - Causa raíz identificada como agotamiento del pool de conexiones
14:45 - Aumento del tamaño del pool desplegado a producción
14:55 - Tiempos de respuesta normalizados
15:08 - Incidente resuelto después de monitoreo de estabilidad

Acciones:

- [ ] Añadir métricas del pool de conexiones al dashboard de monitoreo
- [ ] Crear checklist de despliegue para requerimientos de recursos
- [ ] Implementar auto-scaling del pool de conexiones

Activa "Publicar Postmortem" para mostrarlo en la página de estado
Haz clic en "Guardar"

Mejores Prácticas

Estilo de Comunicación

Hacer:

Ser claro y conciso
Usar lenguaje simple, evitar jerga
Proporcionar tiempos estimados cuando sea posible
Actualizar frecuentemente durante incidentes activos

No hacer:

Hacer promesas que no puedes cumplir
Culpar a individuos o equipos
Usar lenguaje demasiado técnico
Dejar a los usuarios sin actualizaciones por largos períodos

Frecuencia de Actualizaciones

Fase del Incidente	Frecuencia de Actualización
Investigando	Cada 15-20 minutos
Identificado	Cada 20-30 minutos
Monitoreando	Cada 30-60 minutos
Resuelto	Solo actualización final

Plantillas de Incidentes

Usa plantillas para mensajes consistentes:

Navega a Configuración > Plantillas
Crea plantillas para tipos comunes de incidentes:
- Problemas de red
- Problemas de base de datos
- Interrupciones de terceros
- Mantenimiento planificado

Las plantillas ahorran tiempo durante situaciones de alta presión y aseguran comunicación consistente.

Incidentes Automáticos

Los componentes ENDPOINT pueden crear automáticamente incidentes cuando los health checks fallan:

Edita tu componente ENDPOINT
Habilita "Auto Crear Incidente"
Establece el umbral de fallos (ej., 3 fallos consecutivos)
Configura el comportamiento de auto-resolución

Cuando el monitor detecta fallos:

Se crea un incidente con estado Investigando
El componente afectado se establece a Interrupción Mayor
Cuando se recupera, el incidente se resuelve automáticamente

Próximos Pasos

Aprende sobre monitores - Automatiza la creación de incidentes
Configura notificaciones - Alerta a tu equipo
Configura on-call - Escala a las personas correctas

Tu Primera Página de Estado Vista General