Fallos sistémicos y por qué continuarán ocurriendo

Una actualización defectuosa de Crowdstrike inutiliza millones de máquinas Windows en todo el planeta. Una historia sobre fragilidad, ahorro de costes e incentivos.

jul 21, 2024

Este viernes vivimos uno de los incidentes informáticos más importantes de la historia reciente. Crowdstrike, líder mundial en ciberseguridad corporativa, lanzó una actualización que inutilizó millones de máquinas Windows en todo el mundo, afectando a aerolíneas, bancos, hospitales y toda clase de industrias.

Crowdstrike y Microsoft tendrán mucho que explicar, pero la realidad es que, independientemente de los implicados, este incidente nos habla de la fragilidad del sistema que mueve al mundo. Un sistema intencionadamente frágil, originado por la búsqueda de la eficiencia a toda costa e incentivos personales.

Cuestión de costes

Este incidente se podría haber prevenido, pero probablemente no era económicamente rentable hacerlo. ¿Por qué? Por una cuestión de optimización de costes.

Las grandes corporaciones podrían haber evitado ser víctimas de la caída inhabilitando las actualizaciones automáticas sobre sus servicios críticos. La solución era tan sencilla como bloquearlas por defecto y que fuera tu propio servicio de IT quien las desplegara después de probarlas en un entorno controlado. Así, lo haces progresivamente y al menor incidente abortas el proceso.

Ahora bien, estamos hablando de tener personal dedicado y formado para hacer ese trabajo. Y eso es caro. Es mucho más eficiente económicamente delegar esta responsabilidad en un tercero y ahorrarte tú ese coste en personal y en sistemas.

Este ahorro de costes lleva a la concentración. Delegas tu seguridad a Crowdstrike, tu CDN a Cloudflare, tu infraestructura a Amazon AWS, y así hasta el infinito. El resultado es que Internet, que curiosamente nació como red descentralizada para que el ejército de EE.UU. pudiera seguir comunicándose en caso de ataque nuclear, está más centralizada que nunca. Podríamos contar con los dedos de una mano empresas que si caen, se llevan con ellas gran parte de Internet.

A nadie le despiden por contratar IBM

Otro motivo de concentración y por el que fallos sistémicos seguirán ocurriendo es por una cuestión de incentivos de quien contrata estos sistemas.

Imaginemos que somos los responsables de tecnología o ciberseguridad de una gran corporación. Tenemos que decidir a qué proveedor contratar para proteger nuestros sistemas, y contemplamos tres candidatos, el líder mundial, y otras dos menos conocidas.

Quizás las otras dos compañías tengan mejores productos y precios, pero escogerlas frente al líder del mercado supone un riesgo personal. Pudiendo contratar con el líder, ¿qué ocurriría si contratamos con otro proveedor menos conocido y este acaba teniendo un problema como el de Crowdstrike? Probablemente sería el fin de nuestra carrera.

Sin embargo, si contratamos al líder, y este cae, es muy probable que nuestra carrera esté segura, porque si llegara a suceder, nuestra empresa sería tan sólo una más de las afectadas. En cierto modo, se vería como inevitable. Escoger al líder de un mercado es la opción más segura profesionalmente. A nadie le despiden por contratar IBM.

Estos incentivos, de nuevo, llevan a la concentración en unos cuántos proveedores claves. Y la concentración derivará inevitablemente en nuevos fallos sistémicos.

Cómo prevenir fallos sistémicos

No es la primera vez que sucede un fallo cómo este. En 2010, McAfee, otro proveedor de ciberseguridad, inutilizó otros tantos millones de Windows también a través de una actualización defectuosa. Da la casualidad que el CTO de McAfee en esa época es el actual CEO de Crowdstrike.

Es difícil encontrar un mejor argumento para demostrar que la solución no va a venir del mercado. Prevenir fallos sistémicos a nivel mundial sólo se conseguirá a través de la regulación.

La presión competitiva en el mercado seguirá impulsando a las empresas a recortar costes y externalizar servicios críticos, y los incentivos personales de quién decide seguirán concentrando el riesgo en unos pocos proveedores.

Incluso si muchas empresas ahora abren los ojos y reaccionan al incidente de Crowdstrike añadiendo redundancia a sus sistemas, la realidad es que en el largo plazo, el brazo financiero de las empresas y la necesidad de retorno para con los accionistas harán que muy probablemente volvamos a la situación inicial.

En este tipo de escenarios, sólo la regulación a nivel supranacional puede suponer un cambio. Los gobiernos deben establecer normas de obligado cumplimiento en aquellos sectores críticos para prevenir que estos incidentes se repitan. Sólo así las empresas estarían obligadas a responsabilizarse de ser resilientes a impactos externos y se conseguiría evitar la concentración.

Tenemos referentes de eventos sistémicos pasados y la reacción de las instituciones. La crisis financiera de 2008 cambió la legislación a nivel mundial sobre la gestión del riesgo de las instituciones financieras. La crisis del COVID también abrió los ojos a Europa y Estados Unidos sobre la fragilidad de las cadenas de suministro y ha impulsado planes de reindustrialización de sectores críticos.

El incidente de Crowdstrike ha revelado la fragilidad del sistema nervioso central que mueve el mundo. No es asumible que un error de un tercero tire abajo aerolíneas, bancos y hospitales. Muy probablemente veremos a los gobiernos actuar, por lo menos hasta que se nos olvide y ocurra el siguiente fallo sistémico.

Estrategia de Producto

Discusión sobre este post

Por supuesto, sigue adelante.