Español
Guía de Usuario
Incidentes

Incidentes

Reporta, rastrea y comunica interrupciones de servicio a tus usuarios.

Lista de Incidentes

Vista General

Los incidentes son la forma principal de comunicar problemas de servicio a tus usuarios. Un incidente bien gestionado:

  • Mantiene a los usuarios informados durante interrupciones
  • Construye confianza a través de la transparencia
  • Documenta problemas para referencia futura

Ciclo de Vida del Incidente

Cada incidente progresa a través de estos estados:

EstadoDescripciónDuración Típica
InvestigandoProblema reportado, el equipo está investigando5-30 minutos
IdentificadoCausa raíz encontrada, trabajando en solución15-60 minutos
MonitoreandoSolución desplegada, observando estabilidad15-30 minutos
ResueltoProblema completamente solucionadoEstado final

Crear Incidentes

Creación Manual

  1. Navega a Dashboard > Incidentes
  2. Haz clic en "Nuevo Incidente"
  3. Completa los detalles:

Campos requeridos:

  • Título: Descripción clara y concisa (ej., "Retrasos en Respuesta de API")
  • Estado: Estado inicial (usualmente "Investigando")
  • Impacto: Nivel de severidad (Menor, Mayor, Crítico)
  • Componentes Afectados: Selecciona uno o más componentes
  • Mensaje: Actualización inicial explicando la situación
  1. Haz clic en "Crear Incidente"

Usando Plantillas

Para mensajes consistentes:

  1. Haz clic en "Nuevo Incidente"
  2. Haz clic en "Usar Plantilla"
  3. Selecciona una plantilla
  4. Personaliza el contenido pre-llenado
  5. Crea el incidente

Crea plantillas para tipos comunes de incidentes como "Problemas de Base de Datos", "Interrupción de Red", o "Proveedor de Terceros Caído".

Creación Automática

Los componentes ENDPOINT pueden crear incidentes automáticamente:

  1. Edita el componente ENDPOINT
  2. Habilita "Auto Crear Incidente"
  3. Establece "Umbral de Fallos" (fallos consecutivos antes del incidente)
  4. Configura ajustes de auto-resolución

Cuando se alcanza el umbral:

  • Se crea un incidente con estado "Investigando"
  • Los componentes afectados se establecen a "Interrupción Mayor"
  • Los suscriptores son notificados

Añadir Actualizaciones

Mantén a los usuarios informados con actualizaciones regulares:

  1. Abre el incidente
  2. Haz clic en "Añadir Actualización"
  3. Selecciona el nuevo estado
  4. Escribe el mensaje de actualización
  5. Opcionalmente actualiza el estado del componente
  6. Haz clic en "Publicar Actualización"

Guías de Actualización

FaseFrecuenciaContenido
InvestigandoCada 15-20 minLo que sabemos, lo que estamos verificando
IdentificadoCada 20-30 minCausa raíz, ETA si se conoce
MonitoreandoCada 30-60 minEstado de la solución, observaciones de estabilidad
ResueltoUna vezResumen, disculpa si corresponde

Transiciones de Estado

Progresión típica:

Investigando → Identificado → Monitoreando → Resuelto

Puedes saltar estados (ej., ir directamente de Investigando a Resuelto para soluciones rápidas).

Resolver Incidentes

Cuando el problema está solucionado:

  1. Abre el incidente
  2. Haz clic en "Añadir Actualización"
  3. Establece estado a "Resuelto"
  4. Escribe un mensaje de resolución:
    • Confirma la solución
    • Explica qué se hizo
    • Discúlpate si corresponde
  5. Importante: Establece los componentes afectados de vuelta a "Operacional"
  6. Haz clic en "Publicar Actualización"

Auto-Resolución

Para componentes ENDPOINT con auto-incidentes:

  1. Edita el componente
  2. Habilita "Auto Resolver"
  3. Establece "Umbral de Recuperación" (éxitos consecutivos antes de resolver)

El incidente se resuelve automáticamente cuando:

  • Los health checks tienen éxito durante el umbral de recuperación
  • El componente vuelve a Operacional

Postmortems

Documenta incidentes mayores para aprendizaje:

  1. Abre un incidente resuelto
  2. Haz clic en "Añadir Postmortem"
  3. Escribe el análisis:

Resumen: Breve descripción de lo que pasó

Impacto: Quién fue afectado y cómo

  • Duración
  • Usuarios/solicitudes afectados
  • Impacto financiero (si aplica)

Causa Raíz: Por qué sucedió

  • Explicación técnica
  • Factores contribuyentes

Línea de Tiempo: Secuencia de eventos

  • Cuándo se detectó
  • Pasos clave de investigación
  • Cuándo se solucionó

Acciones: Cómo prevenir recurrencia

  • Soluciones inmediatas
  • Mejoras a largo plazo
  • Cambios de proceso
  1. Activa "Publicar" para mostrar en la página de estado
  2. Guarda

Plantillas de Incidentes

Crea plantillas reutilizables:

  1. Navega a Configuración > Plantillas
  2. Haz clic en "Nueva Plantilla"
  3. Configura:
    • Nombre: Identificador de plantilla
    • Patrón de Título: Título de incidente por defecto
    • Impacto: Severidad por defecto
    • Componentes: Componentes pre-seleccionados
    • Mensaje: Texto de actualización por defecto

Variables de Plantilla

Usa variables en plantillas:

VariableDescripción
{{component}}Nombre del componente afectado
{{timestamp}}Fecha/hora actual
{{status}}Estado actual

Notificaciones de Incidentes

Cuando los incidentes se crean o actualizan:

EventoQuién es Notificado
Nuevo incidenteTodos los suscriptores, equipo on-call
Actualización publicadaSuscriptores que optaron por actualizaciones
ResueltoTodos los suscriptores
Postmortem publicadoOpcional (configurable)

Canales de Notificación

Los suscriptores pueden recibir notificaciones vía:

  • Email
  • SMS
  • Webhook
  • Slack/Discord/Teams (vía canales de notificación)

Filtrar Incidentes

La página de incidentes soporta:

  • Filtro de estado: Abiertos, Resueltos, Todos
  • Filtro de impacto: Menor, Mayor, Crítico
  • Rango de fechas: Filtrar por fecha de creación
  • Filtro de componente: Mostrar incidentes que afectan componentes específicos
  • Búsqueda: Encontrar por título o contenido

Acceso API

Crear Incidente

curl -X POST http://localhost:3000/api/v1/incidents \
  -H "Authorization: Bearer sk_live_xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "title": "Retrasos en Respuesta de API",
    "status": "investigating",
    "impact": "major",
    "message": "Estamos investigando reportes de respuestas lentas de API.",
    "componentIds": ["component-id-1"],
    "componentStatuses": {
      "component-id-1": "degraded_performance"
    }
  }'

Añadir Actualización

curl -X POST http://localhost:3000/api/v1/incidents/{id}/updates \
  -H "Authorization: Bearer sk_live_xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "status": "identified",
    "message": "Causa raíz identificada como problemas de conexión a base de datos."
  }'

Resolver

curl -X POST http://localhost:3000/api/v1/incidents/{id}/updates \
  -H "Authorization: Bearer sk_live_xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "status": "resolved",
    "message": "El problema ha sido resuelto.",
    "componentStatuses": {
      "component-id-1": "operational"
    }
  }'

Mejores Prácticas

Escribir Títulos de Incidentes

  • Sé específico pero conciso
  • Incluye servicio/área afectada
  • Evita jerga

Bueno: "API - Tiempos de Respuesta Elevados" Malo: "Problema con la cosa"

Tono de Comunicación

  • Sé profesional pero humano
  • Reconoce el impacto al usuario
  • Evita lenguaje de culpa
  • Agradece a los usuarios por su paciencia

Timing

  • Crea incidentes rápidamente cuando se detectan problemas
  • No esperes hasta tener todas las respuestas
  • Actualiza regularmente durante incidentes activos
  • Resuelve prontamente cuando esté solucionado

Documentación Relacionada