Cloudflare Sufre Caída Global de 25 Minutos que Afectó al 28% del Tráfico de Internet

Hoy, aproximadamente el 28% del tráfico HTTP que transita por la red de Cloudflare experimentó interrupciones durante 25 minutos. Para una infraestructura que maneja una porción significativa del Internet global, cada minuto de inactividad representa millones de transacciones afectadas y potenciales pérdidas para organizaciones en todo el mundo.

Este incidente nos ofrece lecciones valiosas sobre la importancia crítica de la Alta Disponibilidad y la Gestión de Operaciones en infraestructuras modernas.

¿Qué Ocurrió?

El problema se originó durante la implementación de una mejora de seguridad destinada a proteger contra CVE-2025-55182, una vulnerabilidad crítica en React Server Components. Al intentar aumentar el tamaño del búfer de análisis de 128 KB a 1 MB, el equipo de Cloudflare identificó errores en una herramienta interna de testing.

La decisión de desactivar temporalmente esta herramienta mediante su sistema de configuración global desencadenó una cascada de fallos. A diferencia de sus despliegues graduales de software, este sistema propaga cambios en segundos a toda la red sin validación progresiva.

El Fallo Técnico

El problema residía en el código de evaluación de conjuntos de reglas del WAF. Cuando una regla con acción «execute» fue deshabilitada mediante el sistema de interruptores de emergencia, el código esperaba que existiera un objeto rule_result.execute, pero este había sido correctamente omitido. El resultado fue una excepción en Lua:

attempt to index field 'execute' (a nil value)

Esto generó errores HTTP 500 para todos los clientes que utilizaban el proxy FL1 con conjuntos de reglas administradas activadas.

Análisis desde la Perspectiva de Infraestructura

Este incidente ilustra varios principios fundamentales que defendemos en Astrum:

1. Alta Disponibilidad: Más Allá de la Redundancia

La alta disponibilidad no se trata únicamente de tener servidores de respaldo. Requiere:

  • Despliegues graduales: Los cambios críticos deben propagarse progresivamente con validación de estado en cada etapa
  • Arquitecturas de «fail-open»: Cuando un componente falla, el sistema debe degradarse elegantemente en lugar de colapsar completamente
  • Aislamiento de fallos: Un error en un subsistema no debería comprometer la disponibilidad global

2. Gestión de Operaciones: El Factor Humano

Las mejores intenciones pueden generar los peores resultados sin procesos adecuados:

  • Cloudflare implementaba una mejora de seguridad legítima
  • Siguieron su procedimiento operativo estándar documentado
  • Sin embargo, el sistema de configuración global carecía de las mismas salvaguardas que sus despliegues de código

Esto demuestra que los procesos operativos deben evolucionar con la complejidad del sistema.

3. Deuda Técnica y Sistemas Heredados

El código vulnerable llevaba años sin detectarse en el proxy FL1 (escrito en Lua). Significativamente, el mismo código reescrito en Rust para el proxy FL2 no contenía este error, gracias al sistema de tipos fuertes del lenguaje.

Esta es una lección sobre cómo el modernización de infraestructura no es solo una cuestión de rendimiento, sino de resiliencia fundamental.

Lo Que Viene: El Compromiso de Cloudflare

Cloudflare ha anunciado tres iniciativas clave para prevenir futuros incidentes:

  1. Implementaciones mejoradas con control de versiones: Aplicar la misma rigurosidad de los despliegues de software a los datos de configuración
  2. Capacidades de emergencia optimizadas: Garantizar que operaciones críticas funcionen incluso ante otros fallos
  3. Gestión de errores «fail-open»: Reemplazar lógica de fallo duro con degradación elegante

Reflexión Final: La Importancia de la Resiliencia

Este incidente, ocurrido apenas dos semanas después de otra interrupción mayor el 18 de noviembre, revela una verdad incómoda: incluso las infraestructuras más robustas del planeta son sistemas complejos susceptibles a fallos en cascada.

En Astrum, entendemos que la verdadera resiliencia no se mide por la ausencia de incidentes, sino por:

  • La capacidad de detectarlos rápidamente
  • La velocidad de respuesta y mitigación
  • La transparencia en la comunicación
  • El aprendizaje sistemático de cada evento

Las organizaciones que operan servicios críticos necesitan más que infraestructura de calidad: necesitan procesos de gestión de operaciones maduros, monitoreo proactivo, y planes de continuidad probados regularmente.


¿Tu Infraestructura Está Preparada?

En Astrum, ayudamos a organizaciones a diseñar y gestionar infraestructuras resilientes que priorizan:

  • Alta Disponibilidad: Arquitecturas que minimizan puntos únicos de fallo
  • Escalabilidad: Sistemas que crecen con tu negocio sin comprometer estabilidad
  • Alto Rendimiento: Optimización que no sacrifica confiabilidad
  • Gestión y Operaciones: Procesos maduros para prevenir, detectar y responder a incidentes

Cada incidente es una oportunidad de aprendizaje. La pregunta es: ¿estás aprendiendo de las experiencias de otros, o esperando a tener las tuyas propias?


Fuentes:

Más de 800.000 páginas de WordPress vulnerables por una versión antigua de uno de los plugin más populares

La seguridad de al menos 800.000 sitios web que utilizan WordPress está en peligro. El popular complemento All in One SEO, que es empleado por más de 3 millones de sitios web para mejorar el posicionamiento en motores de búsqueda, presenta dos vulnerabilidades críticas. Las mismas han sido abordas en una actualización lanzada el pasado 7 de diciembre, pero los webmasters están tardando en aplicar este parche.

El investigador de seguridad de Automattic, Marc Montpas descubrió los fallos de seguridad a principios de diciembre durante una auditoría interna al complemento All in One SEO. Una de las vulnerabilidades (CVE-2021-25036) podría permitir que un usuario con el rol de suscriptor adquiera privilegios elevados, mientras que la otra (CVE-2021-25037) abriría la puerta a las bases de datos con información privada.

Con el objetivo de distribuir las capacidades y permisos para cada tipo de usuario, los sitios de WordPress tienen diferentes roles. Se trata de administrador, editor, autor, colaborador o suscriptor. Este último tiene únicamente la capacidad de leer entradas y dejar comentarios en la mismas, pero aprovechándose de la vulnerabilidad CVE-2021-25036 podría llegar a actuar como administrador del sitio y así controlarlo por completo.

En líneas generales, y sin entrar en detalles técnicos que pueden ser consultados en este artículo de Jetpack, el atacante podría utilizar el complemento vulnerable para omitir las comprobaciones de privilegios requeridas por la API REST. Tan solo tendría que cambiar un carácter a mayúsculas en una petición. De esta forma podría, por ejemplo, ejecutar código malicioso en el servidor.

La otra vulnerabilidad (CVE-2021-25037), que depende de la anterior, podría permitir que el usuario que elevó sus privilegios efectúe una inyección de código SQL comprometiendo la seguridad de las bases de datos. Este ataque abriría las puertas para modificar los datos de las mismas o extraer información confidencial, incluidas las credenciales de los usuarios.

Le recomendamos que compruebe qué versión del complemento SEO All In One está utilizando su sitio y, si está dentro del rango afectado, ¡actualícelo lo antes posible!