Incidentes
Reporta, rastrea y comunica interrupciones de servicio a tus usuarios.

Vista General
Los incidentes son la forma principal de comunicar problemas de servicio a tus usuarios. Un incidente bien gestionado:
- Mantiene a los usuarios informados durante interrupciones
- Construye confianza a través de la transparencia
- Documenta problemas para referencia futura
Ciclo de Vida del Incidente
Cada incidente progresa a través de estos estados:
| Estado | Descripción | Duración Típica |
|---|---|---|
| Investigando | Problema reportado, el equipo está investigando | 5-30 minutos |
| Identificado | Causa raíz encontrada, trabajando en solución | 15-60 minutos |
| Monitoreando | Solución desplegada, observando estabilidad | 15-30 minutos |
| Resuelto | Problema completamente solucionado | Estado final |
Crear Incidentes
Creación Manual
- Navega a Dashboard > Incidentes
- Haz clic en "Nuevo Incidente"
- Completa los detalles:
Campos requeridos:
- Título: Descripción clara y concisa (ej., "Retrasos en Respuesta de API")
- Estado: Estado inicial (usualmente "Investigando")
- Impacto: Nivel de severidad (Menor, Mayor, Crítico)
- Componentes Afectados: Selecciona uno o más componentes
- Mensaje: Actualización inicial explicando la situación
- Haz clic en "Crear Incidente"
Usando Plantillas
Para mensajes consistentes:
- Haz clic en "Nuevo Incidente"
- Haz clic en "Usar Plantilla"
- Selecciona una plantilla
- Personaliza el contenido pre-llenado
- Crea el incidente
Crea plantillas para tipos comunes de incidentes como "Problemas de Base de Datos", "Interrupción de Red", o "Proveedor de Terceros Caído".
Creación Automática
Los componentes ENDPOINT pueden crear incidentes automáticamente:
- Edita el componente ENDPOINT
- Habilita "Auto Crear Incidente"
- Establece "Umbral de Fallos" (fallos consecutivos antes del incidente)
- Configura ajustes de auto-resolución
Cuando se alcanza el umbral:
- Se crea un incidente con estado "Investigando"
- Los componentes afectados se establecen a "Interrupción Mayor"
- Los suscriptores son notificados
Añadir Actualizaciones
Mantén a los usuarios informados con actualizaciones regulares:
- Abre el incidente
- Haz clic en "Añadir Actualización"
- Selecciona el nuevo estado
- Escribe el mensaje de actualización
- Opcionalmente actualiza el estado del componente
- Haz clic en "Publicar Actualización"
Guías de Actualización
| Fase | Frecuencia | Contenido |
|---|---|---|
| Investigando | Cada 15-20 min | Lo que sabemos, lo que estamos verificando |
| Identificado | Cada 20-30 min | Causa raíz, ETA si se conoce |
| Monitoreando | Cada 30-60 min | Estado de la solución, observaciones de estabilidad |
| Resuelto | Una vez | Resumen, disculpa si corresponde |
Transiciones de Estado
Progresión típica:
Investigando → Identificado → Monitoreando → ResueltoPuedes saltar estados (ej., ir directamente de Investigando a Resuelto para soluciones rápidas).
Resolver Incidentes
Cuando el problema está solucionado:
- Abre el incidente
- Haz clic en "Añadir Actualización"
- Establece estado a "Resuelto"
- Escribe un mensaje de resolución:
- Confirma la solución
- Explica qué se hizo
- Discúlpate si corresponde
- Importante: Establece los componentes afectados de vuelta a "Operacional"
- Haz clic en "Publicar Actualización"
Auto-Resolución
Para componentes ENDPOINT con auto-incidentes:
- Edita el componente
- Habilita "Auto Resolver"
- Establece "Umbral de Recuperación" (éxitos consecutivos antes de resolver)
El incidente se resuelve automáticamente cuando:
- Los health checks tienen éxito durante el umbral de recuperación
- El componente vuelve a Operacional
Postmortems
Documenta incidentes mayores para aprendizaje:
- Abre un incidente resuelto
- Haz clic en "Añadir Postmortem"
- Escribe el análisis:
Resumen: Breve descripción de lo que pasó
Impacto: Quién fue afectado y cómo
- Duración
- Usuarios/solicitudes afectados
- Impacto financiero (si aplica)
Causa Raíz: Por qué sucedió
- Explicación técnica
- Factores contribuyentes
Línea de Tiempo: Secuencia de eventos
- Cuándo se detectó
- Pasos clave de investigación
- Cuándo se solucionó
Acciones: Cómo prevenir recurrencia
- Soluciones inmediatas
- Mejoras a largo plazo
- Cambios de proceso
- Activa "Publicar" para mostrar en la página de estado
- Guarda
Plantillas de Incidentes
Crea plantillas reutilizables:
- Navega a Configuración > Plantillas
- Haz clic en "Nueva Plantilla"
- Configura:
- Nombre: Identificador de plantilla
- Patrón de Título: Título de incidente por defecto
- Impacto: Severidad por defecto
- Componentes: Componentes pre-seleccionados
- Mensaje: Texto de actualización por defecto
Variables de Plantilla
Usa variables en plantillas:
| Variable | Descripción |
|---|---|
{{component}} | Nombre del componente afectado |
{{timestamp}} | Fecha/hora actual |
{{status}} | Estado actual |
Notificaciones de Incidentes
Cuando los incidentes se crean o actualizan:
| Evento | Quién es Notificado |
|---|---|
| Nuevo incidente | Todos los suscriptores, equipo on-call |
| Actualización publicada | Suscriptores que optaron por actualizaciones |
| Resuelto | Todos los suscriptores |
| Postmortem publicado | Opcional (configurable) |
Canales de Notificación
Los suscriptores pueden recibir notificaciones vía:
- SMS
- Webhook
- Slack/Discord/Teams (vía canales de notificación)
Filtrar Incidentes
La página de incidentes soporta:
- Filtro de estado: Abiertos, Resueltos, Todos
- Filtro de impacto: Menor, Mayor, Crítico
- Rango de fechas: Filtrar por fecha de creación
- Filtro de componente: Mostrar incidentes que afectan componentes específicos
- Búsqueda: Encontrar por título o contenido
Acceso API
Crear Incidente
curl -X POST http://localhost:3000/api/v1/incidents \
-H "Authorization: Bearer sk_live_xxx" \
-H "Content-Type: application/json" \
-d '{
"title": "Retrasos en Respuesta de API",
"status": "investigating",
"impact": "major",
"message": "Estamos investigando reportes de respuestas lentas de API.",
"componentIds": ["component-id-1"],
"componentStatuses": {
"component-id-1": "degraded_performance"
}
}'Añadir Actualización
curl -X POST http://localhost:3000/api/v1/incidents/{id}/updates \
-H "Authorization: Bearer sk_live_xxx" \
-H "Content-Type: application/json" \
-d '{
"status": "identified",
"message": "Causa raíz identificada como problemas de conexión a base de datos."
}'Resolver
curl -X POST http://localhost:3000/api/v1/incidents/{id}/updates \
-H "Authorization: Bearer sk_live_xxx" \
-H "Content-Type: application/json" \
-d '{
"status": "resolved",
"message": "El problema ha sido resuelto.",
"componentStatuses": {
"component-id-1": "operational"
}
}'Mejores Prácticas
Escribir Títulos de Incidentes
- Sé específico pero conciso
- Incluye servicio/área afectada
- Evita jerga
Bueno: "API - Tiempos de Respuesta Elevados" Malo: "Problema con la cosa"
Tono de Comunicación
- Sé profesional pero humano
- Reconoce el impacto al usuario
- Evita lenguaje de culpa
- Agradece a los usuarios por su paciencia
Timing
- Crea incidentes rápidamente cuando se detectan problemas
- No esperes hasta tener todas las respuestas
- Actualiza regularmente durante incidentes activos
- Resuelve prontamente cuando esté solucionado
Documentación Relacionada
- Componentes - Configurar servicios a monitorear
- Notificaciones - Configurar canales de alerta
- On-Call - Escalar a miembros del equipo