No existe ningún modelo IA 100% seguro
Anthropic reconoce que no puede evitar que rompan la seguridad de sus modelos de lenguaje. La razón está en su propia arquitectura. Descubre por qué ningún LLM puede ser seguro.
Una semana después de que el gobierno de EE.UU. obliga a Anthropic a retirar sus mejores modelos IA del mercado, la situación sigue en punto muerto.
La administración Trump exige que Anthropic cierre todos los supuestos agujeros de seguridad antes de volver a lanzar el modelo. Anthropic responde que es imposible debido a la propia arquitectura de los modelos de lenguaje.
En el post de hoy veremos por qué los LLMs son inseguros por diseño y cómo los proveedores intentan evitar que se “liberen”.
1. Arreglar una vulnerabilidad también enseña a explotarla
El caso que provocó la intervención del gobierno y el cierre de Fable ilustra a la perfección el problema.
Al parecer, los expertos en seguridad que levantaron la alerta sobre esta posible vulnerabilidad hicieron algo tan sencillo como pedirle a Claude que buscara y solucionara fallos de seguridad sobre un código determinado.
Claude lo hizo: encontró un fallo, generó un parche y creó un script que comprobaba su corrección. El problema es que ese mismo script sirve tanto para verificar que el fallo está corregido como para localizarlo y explotarlo, lo que abre una vía para que actores maliciosos exploten el sistema.
2. No es un fallo del sistema; es como funciona el sistema
En un programa tradicional, una vulnerabilidad es un fallo en el código que, una vez localizado, puede ser solucionado, generalmente modificando ese mismo código.
Los modelos de lenguaje como Fable o GPT-5.5 no son programas tradicionales. Son redes neuronales probabilísticas que no siguen reglas fijas, sino que calculan la respuesta más probable y a las que los proveedores intentan poner guardarraíles.
La posible “liberación” de los modelos, por lo tanto, no corresponde a un fallo en el código que pueda solucionarse. Si conseguimos convencer a la IA, mediante lenguaje natural, de que nuestra petición no es peligrosa, nos dará la respuesta que buscamos.
El problema para los proveedores de modelos es que el lenguaje humano es infinitamente variado y, por tanto, las formas de engañar a un LLM para conseguir que nos dé la información que buscamos también lo son.
3. La superficie de ataque es demasiado grande
Para que Anthropic pudiera bloquear cada posible vulnerabilidad, tendría que anticipar cualquier combinación de palabras, metáforas o escenarios en distintos idiomas que podríamos usar para saltarnos las medidas de seguridad de Fable.
Incluso si Anthropic pudiese cerrar todos los agujeros hoy, mañana alguien encontraría cómo volver a preguntar lo mismo, cambiando ligeramente el envoltorio. En sus alegaciones al cierre de Fable, la empresa llega a afirmar que la resistencia absoluta a las brechas de seguridad es imposible:
Sospechamos que, actualmente, ningún proveedor de modelos puede lograr una resistencia perfecta a los intentos de eludir sus medidas de seguridad. Todas las salvaguardas utilizadas en la industria son vulnerables a ataques no universales, que pueden obtener cierta información sobre ciberseguridad en circunstancias específicas, y es probable que en el futuro acaben encontrándose ataques universales. Lo dijimos claramente cuando lanzamos Fable 5. -- Fuente: Statement on the US government directive to suspend access to Fable 5 and Mythos 5
Traducido: hoy solo existen ataques que funcionan en casos concretos (los “no universales”), pero tarde o temprano aparecerán los que funcionan de forma general y fiable (los “universales”). Y contra eso, admite Anthropic, nadie está blindado.
Lo que sí pueden hacer los proveedores
A estas alturas está claro: no existe ningún modelo 100% seguro. Como la propia Anthropic reconoce, “ningún proveedor puede lograr una resistencia perfecta frente a los intentos de eludir sus medidas de seguridad”.
Ahora bien, eso no quiere decir que los proveedores se crucen de brazos. Trabajan para reducir la superficie de ataque mediante diversas técnicas. Entre otras:
Alineamiento del modelo con los comportamientos deseados: una vez entrenado el modelo base, los proveedores como Anthropic vuelven a entrenarlo en rondas de post-training para conseguir que se comporte como esperan.
Filtrado de entrada y salida: Anthropic filtra lo que entra y sale del modelo. Por ejemplo, en un prompt puede evitar aplicar instrucciones como “ignora tus instrucciones previas” o, en su respuesta, detectar contenido peligroso y evitar que llegue al usuario.
Monitorización y respuesta continuas: como ningún filtro es perfecto, los proveedores observan cómo se usa el modelo en producción, detectan nuevos patrones de ataque y los parchean sobre la marcha.
Sin embargo, ninguna de estas técnicas resuelve por completo el problema. El alineamiento reduce la probabilidad de una respuesta peligrosa, pero no la elimina. El filtrado bloquea los ataques conocidos, no los que se inventarán mañana. Y la monitorización, por definición, siempre llega un paso por detrás del atacante.
Seguridad absoluta vs. gestión del riesgo
El gobierno de EE.UU. está planteando la seguridad de los modelos como si fuera una cuestión binaria: o el modelo es seguro o no lo es. Pero esa forma de verlo no encaja bien con la realidad.
Un coche no es “seguro” en términos absolutos. Puede tener cinturones de seguridad, airbags, control de estabilidad, límites de velocidad y revisiones obligatorias. Aun así, puede haber accidentes. Lo que hacemos como sociedad no es exigir que no ocurra ningún accidente posible, sino reducir la probabilidad y la gravedad de esos accidentes hasta un nivel aceptable.
Con los LLMs ocurre algo parecido.
La pregunta no debería ser si un modelo puede “ser liberado”, porque la respuesta probablemente siempre será sí. La pregunta relevante es otra: cuánto cuesta liberarlo, qué tipo de daño puede causar cuando ocurre, con qué frecuencia sucede y qué mecanismos existen para detectarlo y contenerlo.
En otras palabras, no estamos hablando de eliminar el riesgo, sino de gestionarlo.
Eso no exime a Anthropic, OpenAI, Google ni a ningún otro proveedor de responsabilidad alguna. Al contrario: cuanto más potentes sean sus modelos, mayor debe ser su obligación de probarlos, limitarlos, monitorizarlos y responder cuando fallen.
Pero sí debería cambiar la pregunta que hacemos.
No deberíamos preguntar: “¿Puede este modelo ser liberado alguna vez?”.
Deberíamos preguntar: “¿Qué ha hecho su proveedor para que liberarlo sea difícil, detectable, limitado y costoso?”.

