Español
Primeros Pasos
Tu Primer Incidente

Tu Primer Incidente

Aprende cómo crear, actualizar y resolver incidentes en ReliaPulse.

Visión General

Este tutorial cubre el ciclo de vida completo del incidente:

  1. Crear un incidente
  2. Añadir actualizaciones
  3. Resolver el incidente
  4. Escribir un postmortem

El Ciclo de Vida del Incidente

   ┌─────────────────────────────────────────────────────────────┐
   │                                                             │
   │  ┌───────────┐   ┌────────────┐   ┌───────────┐   ┌────────┤
   │  │Investigando│ → │ Identificado│ → │Monitoreando│ → │Resuelto│
   │  └───────────┘   └────────────┘   └───────────┘   └────────┤
   │                                                             │
   │     Reportar       Causa raíz      Solución       Problema  │
   │     problema       encontrada      aplicada       resuelto  │
   │                                                             │
   └─────────────────────────────────────────────────────────────┘

Crear un Incidente

Cuando descubras un problema:

  1. Navega a Dashboard > Incidentes

  2. Haz clic en "Nuevo Incidente"

  3. Completa los detalles:

    Información Básica:

    • Título: Tiempos de Respuesta de API Elevados
    • Estado: Investigando
    • Impacto: Elige el nivel de severidad

    Componentes Afectados:

    • Selecciona API (o tu componente)
    • Establece el estado del componente a Rendimiento Degradado

    Mensaje Inicial:

    Estamos investigando reportes de tiempos de respuesta lentos en la API.
    Algunos usuarios pueden experimentar retrasos al hacer solicitudes.
    Proporcionaremos actualizaciones a medida que tengamos más información.
  4. Haz clic en "Crear Incidente"

El incidente aparece inmediatamente en tu página de estado pública, y los suscriptores reciben notificaciones.

Añadir una Actualización (Identificado)

Una vez que hayas encontrado la causa raíz:

  1. Abre el incidente desde la lista de incidentes
  2. Haz clic en "Añadir Actualización"
  3. Completa la actualización:
    • Estado: Identificado
    • Mensaje:
    Hemos identificado la causa raíz como agotamiento del pool de conexiones
    de base de datos. Nuestro equipo está trabajando en aumentar el tamaño
    del pool e implementar gestión adicional de conexiones.
  4. Opcionalmente actualiza el estado del componente (mantener como Rendimiento Degradado)
  5. Haz clic en "Publicar Actualización"

Añadir una Actualización (Monitoreando)

Después de aplicar una solución:

  1. Haz clic en "Añadir Actualización" de nuevo
  2. Completa la actualización:
    • Estado: Monitoreando
    • Mensaje:
    Se ha desplegado una solución para aumentar la capacidad del pool de
    conexiones de base de datos. Los tiempos de respuesta están volviendo
    a niveles normales. Estamos monitoreando el sistema para asegurar
    estabilidad.
  3. Haz clic en "Publicar Actualización"

Resolver el Incidente

Una vez que el problema esté completamente resuelto:

  1. Haz clic en "Añadir Actualización"
  2. Completa la resolución:
    • Estado: Resuelto
    • Mensaje:
    Este incidente ha sido resuelto. Los tiempos de respuesta de la API
    han vuelto a niveles normales y han estado estables durante los
    últimos 30 minutos.
    
    Pedimos disculpas por cualquier inconveniente causado.
  3. Importante: Actualiza el estado del componente a Operacional
  4. Haz clic en "Publicar Actualización"

El incidente ahora está marcado como resuelto y se mueve al historial de incidentes.

Escribir un Postmortem

Para incidentes significativos, añade un postmortem:

  1. Abre el incidente resuelto

  2. Haz clic en "Añadir Postmortem"

  3. Escribe un análisis completo:

    Resumen:

    El [fecha], los usuarios experimentaron tiempos de respuesta elevados
    en la API durante aproximadamente 45 minutos debido a agotamiento del
    pool de conexiones de base de datos.

    Impacto:

    - Duración: 45 minutos
    - Usuarios afectados: ~15% de solicitudes API
    - Servicios impactados: API, Aplicación Web

    Causa Raíz:

    Un despliegue reciente aumentó el manejo de solicitudes concurrentes sin
    aumentar proporcionalmente el tamaño del pool de conexiones de base de datos.
    Durante el tráfico pico, las conexiones se agotaron, causando que las
    solicitudes se encolaran y expiraran.

    Línea de Tiempo:

    14:23 - Alertas de monitoreo por tiempos de respuesta elevados
    14:25 - Ingeniería notificada, investigación comienza
    14:35 - Causa raíz identificada como agotamiento del pool de conexiones
    14:45 - Aumento del tamaño del pool desplegado a producción
    14:55 - Tiempos de respuesta normalizados
    15:08 - Incidente resuelto después de monitoreo de estabilidad

    Acciones:

    - [ ] Añadir métricas del pool de conexiones al dashboard de monitoreo
    - [ ] Crear checklist de despliegue para requerimientos de recursos
    - [ ] Implementar auto-scaling del pool de conexiones
  4. Activa "Publicar Postmortem" para mostrarlo en la página de estado

  5. Haz clic en "Guardar"

Mejores Prácticas

Estilo de Comunicación

Hacer:

  • Ser claro y conciso
  • Usar lenguaje simple, evitar jerga
  • Proporcionar tiempos estimados cuando sea posible
  • Actualizar frecuentemente durante incidentes activos

No hacer:

  • Hacer promesas que no puedes cumplir
  • Culpar a individuos o equipos
  • Usar lenguaje demasiado técnico
  • Dejar a los usuarios sin actualizaciones por largos períodos

Frecuencia de Actualizaciones

Fase del IncidenteFrecuencia de Actualización
InvestigandoCada 15-20 minutos
IdentificadoCada 20-30 minutos
MonitoreandoCada 30-60 minutos
ResueltoSolo actualización final

Plantillas de Incidentes

Usa plantillas para mensajes consistentes:

  1. Navega a Configuración > Plantillas
  2. Crea plantillas para tipos comunes de incidentes:
    • Problemas de red
    • Problemas de base de datos
    • Interrupciones de terceros
    • Mantenimiento planificado

Las plantillas ahorran tiempo durante situaciones de alta presión y aseguran comunicación consistente.

Incidentes Automáticos

Los componentes ENDPOINT pueden crear automáticamente incidentes cuando los health checks fallan:

  1. Edita tu componente ENDPOINT
  2. Habilita "Auto Crear Incidente"
  3. Establece el umbral de fallos (ej., 3 fallos consecutivos)
  4. Configura el comportamiento de auto-resolución

Cuando el monitor detecta fallos:

  • Se crea un incidente con estado Investigando
  • El componente afectado se establece a Interrupción Mayor
  • Cuando se recupera, el incidente se resuelve automáticamente

Próximos Pasos