El Desastre de CrowdStrike: Lecciones Aprendidas y Recomendaciones

Resumen del Incidente
CrowdStrike, una destacada empresa estadounidense que ofrece servicios de seguridad informática, sufrió un incidente significativo con su producto Falcon, ampliamente instalado en máquinas con sistema operativo Windows. El 19 de julio de 2024, CrowdStrike emitió un parche para actualizar su software a través de Internet, lo que provocó que muchas máquinas Windows no se iniciaran correctamente y mostraran la temida «Pantalla Azul de la Muerte» (BSOD). Este problema requería que los profesionales de TI arrancaran cada máquina en modo seguro y eliminaran manualmente un archivo del software Falcon para que el sistema volviera a funcionar correctamente. Aunque la causa raíz se identificó rápidamente, la solución fue intensiva en términos de tiempo y esfuerzo físico.
Responsabilidades y Fallos
En este caso, la responsabilidad recae en CrowdStrike, ya que fueron ellos los encargados de revisar el código y realizar el control de calidad de los paquetes. Este incidente resalta la importancia de implementar actualizaciones de manera escalonada para limitar el impacto de posibles errores graves. A pesar de que Microsoft también tiene cierta responsabilidad al emitir las certificaciones de software necesarias, la calidad del producto final es responsabilidad de los terceros como CrowdStrike.
El desastre de Crowdstrike: Detalles del Incidente
Acerca de Falcon y EDR
Para comprender mejor el problema, es esencial entender el componente afectado y su nivel de privilegio. El software que causó este problema fue el controlador Endpoint Detection and Response (EDR) de CrowdStrike, que forma parte de la plataforma llamada CrowdStrike Falcon Sensor.
¿Qué hace Falcon’s EDR?
EDR es una solución de ciberseguridad diseñada para monitorear y responder a amenazas en endpoints como computadoras, servidores y dispositivos móviles. Sus funciones clave incluyen la recopilación de datos, detección de amenazas, respuesta a incidentes, análisis forense e integración de inteligencia de amenazas.
El Rol del Controlador EDR
El Falcon Sensor EDR incluye un componente de controlador que funciona a nivel de kernel. Este controlador monitorea y recopila datos en tiempo real desde los puntos finales, cargándose en la fase de inicialización previa al sistema operativo, conocida como fase ELAM (Early Launch Anti Malware). Los controladores ELAM se inicializan primero para proteger el sistema desde el arranque. El administrador de arranque de Windows carga estos controladores para detectar y bloquear cualquier malware que intente cargarse al principio del proceso de arranque.
Recepción de Actualizaciones del Controlador EDR
Falcon recibe actualizaciones automáticamente desde la infraestructura en la nube de CrowdStrike, las cuales pueden ocurrir varias veces al día. Esta característica facilitó la rápida propagación del incidente BSOD.
Causa del Problema
La actualización de CrowdStrike, diseñada para mitigar una vulnerabilidad en las “named pipes” explotada por ciertos ciberataques, incluía cambios en los archivos de configuración del sensor. Un archivo específico (C-00000291*.sys) contenía un error lógico que causaba el bloqueo del sistema operativo, provocando un bucle de arranque. La actualización del archivo de canal desencadenó un error lógico que provocó un error de asignación de memoria. Además, había un error en la lógica de validación de las asignaciones de memoria. Dado que la lógica de validación tampoco detectó ningún problema con la lógica de asignación de memoria, el controlador simplemente procedió a funcionar como de costumbre. Debido a una asignación de memoria incorrecta, esto provocó que el controlador se bloqueara con PAGE_FAULT_IN_NONPAGED_AREA error.
Solución Implementada
Para resolver el problema, los responsables de mantenimiento informático debían acceder a los sistemas físicamente, iniciar en modo seguro y eliminar manualmente el archivo C-00000291*.sys. Una vez hecho esto, el sistema podía reiniciarse y volver a funcionar correctamente. Actualmente, el problema está solucionado y el archivo corrupto ya no se distribuye, por lo que es seguro actualizar el cliente Falcon a través de los canales habituales.
Conclusiones y Lecciones Aprendidas
Este incidente ha puesto de manifiesto varios puntos importantes:
- Riesgos de la Dependencia: La escala de este desastre resalta los riesgos asociados con depender excesivamente de un solo sistema o proveedor.
- Peligros del Mal Código: Un mal código puede llevar a los sistemas a quedar inoperativos y, en casos extremos, a provocar daños en el hardware.
- Importancia del Control de Calidad: Es crucial contar con un control de calidad riguroso para asegurar que los paquetes entregados cumplan con los estándares esperados.
- Actualizaciones Escalonadas: Las actualizaciones escalonadas pueden prevenir catástrofes generalizadas.
- Monitorización y Respuesta: La capacidad de monitorizar y responder rápidamente a incidentes es vital para minimizar el impacto.
Las empresas deben aprender de este incidente y reforzar sus procedimientos de control de calidad, además de considerar la implementación de actualizaciones escalonadas para mitigar riesgos.
Referencias:
* DATAPRISE
* MEDIUM
* THENEWSTACK