Español
Integraciones
Datadog

Integración con Datadog

Conecta ReliaPulse con Datadog para métricas de aplicaciones e infraestructura.

Vista General

La integración con Datadog te permite:

  • Mostrar métricas de Datadog en tu página de estado
  • Crear componentes METRIC basados en consultas de Datadog
  • Establecer umbrales para actualizaciones automáticas de estado
  • Rastrear métricas multi-serie con agrupación por tags

Requisitos Previos

  • Una cuenta de Datadog
  • Una API key con permisos de lectura de métricas
  • Una Application key

Configuración

1. Crear API Keys de Datadog

  1. Inicia sesión en Datadog
  2. Navega a Organization Settings > API Keys
  3. Haz clic en "New Key"
  4. Copia la API key

2. Crear Application Key

  1. Navega a Organization Settings > Application Keys
  2. Haz clic en "New Key"
  3. Copia la application key

Las application keys están vinculadas a un usuario específico. Crea una cuenta de servicio para uso en producción.

3. Añadir Integración en ReliaPulse

  1. Navega a Configuración > Integraciones
  2. Haz clic en "Añadir Integración"
  3. Selecciona Datadog
  4. Configura:
CampoDescripción
NombreNombre de visualización (ej., "Datadog Producción")
API KeyTu API key de Datadog
App KeyTu application key de Datadog
SiteSitio de Datadog (US1, US3, US5, EU1, AP1)
  1. Haz clic en "Probar Conexión"
  2. Haz clic en "Guardar"

Sitios de Datadog

SiteURLRegión
US1datadoghq.comUS
US3us3.datadoghq.comUS
US5us5.datadoghq.comUS
EU1datadoghq.euEU
AP1ap1.datadoghq.comAsia Pacífico

Crear Consultas de Métricas

Consulta Básica

  1. Ve a la configuración de la integración
  2. Haz clic en la pestaña "Métricas"
  3. Haz clic en "Añadir Consulta"
  4. Configura:
CampoValor
NombreUso de CPU
Queryavg:system.cpu.user{*}
Intervalo de Polling60 segundos
Umbral de Advertencia70
Umbral Crítico90
  1. Guarda

Sintaxis de Consultas

Las consultas de Datadog siguen este patrón:

<agregación>:<métrica>{<scope>}

Ejemplos:

avg:system.cpu.user{*}                    # CPU promedio en todos los hosts
sum:http.requests{service:api}.as_count() # Conteo de requests para servicio API
avg:aws.rds.dbload{*}                     # Carga de base de datos RDS
p95:trace.request.duration{*}             # Duración P95 de requests

Funciones de Agregación

FunciónDescripción
avgValor promedio
sumSuma de valores
minValor mínimo
maxValor máximo
countNúmero de puntos

Scope (Tags)

Filtra por tags:

avg:system.cpu.user{host:web-1}           # Host específico
avg:system.cpu.user{env:production}       # Ambiente de producción
avg:system.cpu.user{env:prod,service:api} # Múltiples tags

Métricas Multi-Serie

Rastrea métricas divididas por tags:

Habilitar Multi-Serie

  1. Edita una consulta de métricas
  2. Habilita "Modo Multi-Serie"
  3. Configura:
CampoDescripción
Agrupar por TagsNombres de tags separados por coma
AgregaciónCómo agregar (AVG, SUM)
Max SeriesMáximo de series a rastrear

Ejemplo: CPU por Host

Query: avg:system.cpu.user{*}
Agrupar por Tags: host

Esto crea una serie separada para cada host:

  • web-1: 45%
  • web-2: 52%
  • api-1: 38%

Transformación de Consulta

ReliaPulse añade automáticamente by {tags} a tu consulta:

Tu consulta: avg:system.cpu.user{*}
Con groupByTags: host,env
Consulta efectiva: avg:system.cpu.user{*} by {host,env}

Descubrimiento de Series

  1. Guarda la consulta con multi-serie habilitado
  2. Haz clic en "Descubrir Series"
  3. El sistema consulta Datadog y crea entradas de series

Métricas Comunes

Infraestructura

MétricaQuery
Uso de CPUavg:system.cpu.user{*}
Uso de Memoriaavg:system.mem.used{*}
Uso de Discoavg:system.disk.in_use{*}
Red Entrantesum:system.net.bytes_rcvd{*}.as_rate()

AWS

MétricaQuery
CPU de RDSavg:aws.rds.cpuutilization{*}
Conexiones RDSavg:aws.rds.database_connections{*}
Errores Lambdasum:aws.lambda.errors{*}.as_count()
Latencia ELBavg:aws.elb.latency{*}

APM

MétricaQuery
Tasa de Requestssum:trace.http.request{*}.as_rate()
Tasa de Erroressum:trace.http.request.errors{*}.as_rate()
Latencia P95p95:trace.http.request.duration{*}

Umbrales

Establece umbrales para actualizaciones automáticas de estado:

UmbralEfecto
AdvertenciaEstado del componente → Degradado
CríticoEstado del componente → Interrupción Mayor

Dirección del Umbral

Por defecto, "sobre el umbral" es malo. Para métricas donde menor es peor:

  • Establece crítico menor que advertencia
  • El sistema detecta umbrales invertidos

Solución de Problemas

Autenticación Fallida

  1. Verifica que la API key sea correcta
  2. Verifica permisos de la application key
  3. Confirma que el sitio correcto está seleccionado
  4. Asegura que las keys no han sido revocadas

No Se Retornan Datos

  1. Verifica que el nombre de la métrica sea correcto
  2. Verifica que los tags de scope existen en Datadog
  3. Confirma que la métrica tiene puntos de datos recientes
  4. Prueba la consulta primero en la UI de Datadog

Datos Retrasados

Las métricas cloud (AWS, GCP, Azure) a menudo tienen retrasos de 5-10 minutos.

ReliaPulse usa una ventana de tiempo de 30 minutos para acomodar retrasos de métricas cloud. Si aún faltan datos:

  1. Verifica disponibilidad de datos en Datadog
  2. Aumenta el intervalo de polling
  3. Verifica que la métrica está reportando activamente

Series Vacías

Si el modo multi-serie no retorna series:

  1. Verifica que groupByTags coinciden con tags reales de Datadog
  2. Verifica que los tags existen en la métrica
  3. Intenta consultar primero sin groupBy

Integración API

Crear Integración de Datadog

curl -X POST https://tu-dominio.com/api/v1/integrations \
  -H "Authorization: Bearer sk_live_xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "name": "Datadog Producción",
    "type": "DATADOG",
    "config": {
      "apiKey": "tu-api-key",
      "appKey": "tu-app-key",
      "site": "US1"
    }
  }'

Crear Consulta de Métricas

curl -X POST https://tu-dominio.com/api/v1/integrations/{id}/metrics \
  -H "Authorization: Bearer sk_live_xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "name": "Uso de CPU API",
    "query": "avg:system.cpu.user{service:api}",
    "pollingInterval": 60,
    "warningThreshold": 70,
    "criticalThreshold": 90,
    "isMultiSeries": true,
    "groupByTags": ["host"]
  }'

Mejores Prácticas

  1. Usa scopes específicos - Limita consultas a datos relevantes
  2. Establece intervalos apropiados - 60 segundos para la mayoría de métricas
  3. Agrupa métricas relacionadas - Usa tags consistentemente
  4. Monitorea polling - Verifica logs del worker para errores
  5. Prueba consultas primero - Valida en la UI de Datadog

Documentación Relacionada