Seville, Spain
Seville, Spain
+(34) 624 816 969
Table of contents [Show]
Recuerdo la primera vez que perdimos el sueño por algo que no era un bug. Era un martes. Grafana mostraba paneles vacíos. Prometheus, nuestro incansable recolector de métricas, simplemente no veía los datos de Cilium. No había errores en los logs, no había caídas de servicio, pero las métricas de red habían desaparecido.

Este tipo de incidentes silenciosos son los más peligrosos para un equipo de operaciones. Si no tienes visibilidad, no puedes reaccionar. Y si no reaccionas, el negocio puede verse afectado sin que nadie lo sepa hasta que es demasiado tarde.
Tras horas de análisis, descubrimos que el problema estaba en la configuración de service discovery de Prometheus. Cilium, como plano de datos de red para Kubernetes, expone sus métricas a través de endpoints efímeros. Si el mecanismo de descubrimiento no está alineado con los ciclos de vida de los pods de Cilium, Prometheus puede perder el rastro.

Para los SysAdmins y DevOps, esta es una llamada de atención: la monitorización no es solo instalar un agente. Requiere entender cómo las herramientas de red (como Cilium) interactúan con los recolectores de métricas. En este caso, la solución pasó por ajustar los selectores de etiquetas y los tiempos de scrape para que Prometheus siempre encontrara los endpoints correctos.
La falta de métricas no solo afecta a los equipos técnicos. Sin datos de rendimiento de red, los acuerdos de nivel de servicio (SLA) pueden incumplirse sin previo aviso. Las decisiones de capacidad, basadas en tendencias históricas, se toman a ciegas. Y en entornos críticos, como los de telecomunicaciones o energía, esto puede traducirse en pérdidas económicas o de reputación.
Para mitigar estos riesgos, recomendamos integrar prácticas de hardening y mantenimiento proactivo en la cadena de monitorización, así como establecer alertas que detecten la ausencia de métricas esperadas.
Este incidente nos enseñó que la visibilidad de extremo a extremo es un requisito no funcional crítico. Algunas acciones clave:

Si tu organización maneja datos sensibles o infraestructura crítica, considera también un enfoque de hacking ético para identificar brechas de visibilidad antes de que se conviertan en incidentes.
Fuente: The New Stack. Análisis ForgeNEX.