Incidentes

Reporta, rastrea y comunica interrupciones de servicio a tus usuarios.

Lista de Incidentes

Vista General

Los incidentes son la forma principal de comunicar problemas de servicio a tus usuarios. Un incidente bien gestionado:

Mantiene a los usuarios informados durante interrupciones
Construye confianza a través de la transparencia
Documenta problemas para referencia futura

Ciclo de Vida del Incidente

Cada incidente progresa a través de estos estados:

Estado	Descripción	Duración Típica
Investigando	Problema reportado, el equipo está investigando	5-30 minutos
Identificado	Causa raíz encontrada, trabajando en solución	15-60 minutos
Monitoreando	Solución desplegada, observando estabilidad	15-30 minutos
Resuelto	Problema completamente solucionado	Estado final

Crear Incidentes

Creación Manual

Navega a Dashboard > Incidentes
Haz clic en "Nuevo Incidente"
Completa los detalles:

Campos requeridos:

Título: Descripción clara y concisa (ej., "Retrasos en Respuesta de API")
Estado: Estado inicial (usualmente "Investigando")
Impacto: Nivel de severidad (Menor, Mayor, Crítico)
Componentes Afectados: Selecciona uno o más componentes
Mensaje: Actualización inicial explicando la situación

Haz clic en "Crear Incidente"

Usando Plantillas

Para mensajes consistentes:

Haz clic en "Nuevo Incidente"
Haz clic en "Usar Plantilla"
Selecciona una plantilla
Personaliza el contenido pre-llenado
Crea el incidente

Crea plantillas para tipos comunes de incidentes como "Problemas de Base de Datos", "Interrupción de Red", o "Proveedor de Terceros Caído".

Creación Automática

Los componentes ENDPOINT pueden crear incidentes automáticamente:

Edita el componente ENDPOINT
Habilita "Auto Crear Incidente"
Establece "Umbral de Fallos" (fallos consecutivos antes del incidente)
Configura ajustes de auto-resolución

Cuando se alcanza el umbral:

Se crea un incidente con estado "Investigando"
Los componentes afectados se establecen a "Interrupción Mayor"
Los suscriptores son notificados

Añadir Actualizaciones

Mantén a los usuarios informados con actualizaciones regulares:

Abre el incidente
Haz clic en "Añadir Actualización"
Selecciona el nuevo estado
Escribe el mensaje de actualización
Opcionalmente actualiza el estado del componente
Haz clic en "Publicar Actualización"

Guías de Actualización

Fase	Frecuencia	Contenido
Investigando	Cada 15-20 min	Lo que sabemos, lo que estamos verificando
Identificado	Cada 20-30 min	Causa raíz, ETA si se conoce
Monitoreando	Cada 30-60 min	Estado de la solución, observaciones de estabilidad
Resuelto	Una vez	Resumen, disculpa si corresponde

Transiciones de Estado

Progresión típica:

Investigando → Identificado → Monitoreando → Resuelto

Puedes saltar estados (ej., ir directamente de Investigando a Resuelto para soluciones rápidas).

Resolver Incidentes

Cuando el problema está solucionado:

Abre el incidente
Haz clic en "Añadir Actualización"
Establece estado a "Resuelto"
Escribe un mensaje de resolución:
- Confirma la solución
- Explica qué se hizo
- Discúlpate si corresponde
Importante: Establece los componentes afectados de vuelta a "Operacional"
Haz clic en "Publicar Actualización"

Auto-Resolución

Para componentes ENDPOINT con auto-incidentes:

Edita el componente
Habilita "Auto Resolver"
Establece "Umbral de Recuperación" (éxitos consecutivos antes de resolver)

El incidente se resuelve automáticamente cuando:

Los health checks tienen éxito durante el umbral de recuperación
El componente vuelve a Operacional

Postmortems

Documenta incidentes mayores para aprendizaje:

Abre un incidente resuelto
Haz clic en "Añadir Postmortem"
Escribe el análisis:

Resumen: Breve descripción de lo que pasó

Impacto: Quién fue afectado y cómo

Duración
Usuarios/solicitudes afectados
Impacto financiero (si aplica)

Causa Raíz: Por qué sucedió

Explicación técnica
Factores contribuyentes

Línea de Tiempo: Secuencia de eventos

Cuándo se detectó
Pasos clave de investigación
Cuándo se solucionó

Acciones: Cómo prevenir recurrencia

Soluciones inmediatas
Mejoras a largo plazo
Cambios de proceso

Activa "Publicar" para mostrar en la página de estado
Guarda

Plantillas de Incidentes

Crea plantillas reutilizables:

Navega a Configuración > Plantillas
Haz clic en "Nueva Plantilla"
Configura:
- Nombre: Identificador de plantilla
- Patrón de Título: Título de incidente por defecto
- Impacto: Severidad por defecto
- Componentes: Componentes pre-seleccionados
- Mensaje: Texto de actualización por defecto

Variables de Plantilla

Usa variables en plantillas:

Variable	Descripción
`{{component}}`	Nombre del componente afectado
`{{timestamp}}`	Fecha/hora actual
`{{status}}`	Estado actual

Notificaciones de Incidentes

Cuando los incidentes se crean o actualizan:

Evento	Quién es Notificado
Nuevo incidente	Todos los suscriptores, equipo on-call
Actualización publicada	Suscriptores que optaron por actualizaciones
Resuelto	Todos los suscriptores
Postmortem publicado	Opcional (configurable)

Canales de Notificación

Los suscriptores pueden recibir notificaciones vía:

Email
SMS
Webhook
Slack/Discord/Teams (vía canales de notificación)

Filtrar Incidentes

La página de incidentes soporta:

Filtro de estado: Abiertos, Resueltos, Todos
Filtro de impacto: Menor, Mayor, Crítico
Rango de fechas: Filtrar por fecha de creación
Filtro de componente: Mostrar incidentes que afectan componentes específicos
Búsqueda: Encontrar por título o contenido

Acceso API

Crear Incidente

curl -X POST http://localhost:3000/api/v1/incidents \
  -H "Authorization: Bearer sk_live_xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "title": "Retrasos en Respuesta de API",
    "status": "investigating",
    "impact": "major",
    "message": "Estamos investigando reportes de respuestas lentas de API.",
    "componentIds": ["component-id-1"],
    "componentStatuses": {
      "component-id-1": "degraded_performance"
    }
  }'

Añadir Actualización

curl -X POST http://localhost:3000/api/v1/incidents/{id}/updates \
  -H "Authorization: Bearer sk_live_xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "status": "identified",
    "message": "Causa raíz identificada como problemas de conexión a base de datos."
  }'

Resolver

curl -X POST http://localhost:3000/api/v1/incidents/{id}/updates \
  -H "Authorization: Bearer sk_live_xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "status": "resolved",
    "message": "El problema ha sido resuelto.",
    "componentStatuses": {
      "component-id-1": "operational"
    }
  }'

Mejores Prácticas

Escribir Títulos de Incidentes

Sé específico pero conciso
Incluye servicio/área afectada
Evita jerga

Bueno: "API - Tiempos de Respuesta Elevados" Malo: "Problema con la cosa"

Tono de Comunicación

Sé profesional pero humano
Reconoce el impacto al usuario
Evita lenguaje de culpa
Agradece a los usuarios por su paciencia

Timing

Crea incidentes rápidamente cuando se detectan problemas
No esperes hasta tener todas las respuestas
Actualiza regularmente durante incidentes activos
Resuelve prontamente cuando esté solucionado

Documentación Relacionada

Componentes - Configurar servicios a monitorear
Notificaciones - Configurar canales de alerta
On-Call - Escalar a miembros del equipo

Componentes Mantenimientos