Skip to content Skip to sidebar Skip to footer

Anthropic filtró por accidente su IA más potente. Y lo que reveló asusta más que la propia filtración.

Esta semana quería comentaros al respecto de un tema muy relevante y que, por algún motivo, ha pasado totalmente inadvertido para muchos.

El pasado miércoles 26 de marzo, dos investigadores de seguridad, uno de LayerX Security y otro de la Universidad de Cambridge, descubrieron que Anthropic, la empresa detrás de Claude, tenía casi 3.000 archivos internos expuestos al público en una base de datos no protegida. Además, parecían documentos sin clasificar, borradores de posts, comunicaciones internas y todo visible para cualquiera que supiera dónde mirar.

Y entre esos documentos había uno realmente significativo. Un borrador de blog que describe un modelo de IA que Anthropic lleva desarrollando en secreto. Un modelo tan potente que la propia empresa avisa a gobiernos de que puede hacer que los ciberataques a gran escala sean “mucho más probables en 2026”.

Se llama Claude Mythos.y su nombre interno es Capybara.

La filtración más irónica del año

Fortune fue el primer medio en revisar los documentos y contactar con Anthropic.

La respuesta de la compañía fue bastante curiosa.. De hecho, no negaron nada y además confirmaron que el modelo existe, que está en pruebas con clientes seleccionados y que representa, “un salto cualitativo en rendimiento y el más capaz que hemos construido hasta la fecha” (cita textual).

Después de esto, cerraron el acceso público a la base de datos. 

La ironía es brutal. Anthropic, la empresa que lleva meses litigando contra el Pentágono por cuestiones de seguridad nacional, filtra su arma más potente debido a un error de configuración en su CMS.

Los archivos estaban públicos por defecto. Alguien se olvidó de marcarlos como privados, así de simple.

Error humano, dijeron. No se comprometieron datos de clientes ni la infraestructura core. Solo… los planos de lo que podría ser la IA más peligrosa jamás creada. Nada grave.

¿Qué es exactamente Mythos?

Hasta ahora, Anthropic tenía tres niveles de modelo: Haiku (rápido y barato), Sonnet (equilibrado) y Opus (el más potente). Capybara es un cuarto nivel, por encima de Opus.

Nunca antes Anthropic había añadido un nuevo tier por arriba y los números que se filtran del borrador son para prestarles atención. Puntuaciones “dramáticamente superiores” a Claude Opus 4.6 en benchmarks de programación, razonamiento académico y ciberseguridad. En SWE-bench, el test estándar de ingeniería de software, en mejoras de doble dígito porcentual y en capacidades de ciberseguridad, el documento dice que Mythos está “actualmente muy por delante de cualquier otro modelo de IA”. De cualquiera.

No hay cifras públicas exactas todavía. Anthropic no ha lanzado ningún anuncio oficial ni página de producto. Lo que sabemos viene del borrador filtrado, y la empresa lo describe como “señales direccionales” más que como especificaciones definitivas.

Pero cuando el propio creador de la herramienta dice que su nueva creación puede encontrar y explotar vulnerabilidades de software más rápido de lo que los defensores pueden parchearlas… quizás deberíamos prestar algo de atención, ¿no os parece?

Capibara_Claude_El blog de Salvador Villalta
Imagen creada con Gemini

El día que las acciones de ciberseguridad se desplomaron

Al día siguiente de la filtración, el 27 de marzo, Wall Street hizo lo que mejor sabe hacer: entrar en pánico. CrowdStrike cayó un 7%, Palo Alto Networks, un 6%, Zscaler, un 4,5% y el ETF iShares de Ciberseguridad se dejó un 4,5% en una sola sesión. Okta, SentinelOne, Fortinet, todas cayeron alrededor del 3%. ¿

¿Os acordáis de que hablamos recientemente de SaaSPocalypse por algo muy parecido?

La lógica del mercado fue instantánea y despiadada: si una IA puede descubrir vulnerabilidades más rápido de lo que las empresas de seguridad pueden proteger contra ellas, toda la propuesta de valor del sector se tambalea. Y eso es exactamente lo que Mythos parece prometer.

El borrador filtrado lo dice sin rodeos: el modelo “presagia una ola de modelos que pueden explotar vulnerabilidades de maneras que superan con creces los esfuerzos de los defensores”. La IA está dando más ventaja a los atacantes que a los que se defienden.

Eso es lo que Anthropic está comunicando en privado a altos cargos del gobierno estadounidense. Que su propio modelo hace más probable que haya ciberataques masivos este año.

Ciberataque Ramsonware el Blog de Salvador Vilalta
Imagen generada con Gemini

La carrera por arriba

Para poner esto en contexto.

En febrero, OpenAI lanzó GPT-5.3 Codex, el primer modelo entrenado explícitamente para identificar vulnerabilidades.

Google DeepMind sacó Gemini 3.1 Pro empujando el razonamiento y la programación. Y ahora Anthropic revela (sin querer) que tiene un modelo que supera a ambos. 

Tres laboratorios, tres frontier models. Todos desarrollados al mismo tiempo y con capacidades de doble uso que nadie sabe cómo controlar. ¿Os acordáis de cuando la carrera de la IA giraba en torno a quién generaba mejor texto o mejores imágenes?

Ahora va de quién hackea más rápido. El dilema que nadie quiere resolver

Es en este punto donde la historia se pone incómoda

Mythos es lo que parece, peligroso y Anthropic, evidentemente , lo sabe.

De hecho, lo indica en su propio borrador, señalando que las capacidades del modelo representan “riesgos sin precedentes” y que su estrategia para mitigarlos es dar acceso anticipado a organizaciones de ciberseguridad defensiva , es decir, que los buenos tengan la herramienta antes que los malos.

La propia existencia de este nuevo modelo implica que el genio ya está fuera de la lámpara.

De hecho, es difícil controlar quién y cómo lo usa, especialmente cuando se ha empleado Claude en ciberataques coordinados contra cerca de treinta organizaciones.

¿No os parece irónico que todo esto haya salido a la luz por una filtración? Sinceramente es. raro… raro… de aurora boreal

Que Anthropic , la empresa más responsable del sector, la que le dijo que no al Pentágono por principios éticos, tenga archivos internos abiertos al público por un descuido, no tiene mucho sentido. Si no eres capaz de proteger tu propio CMS, ¿cómo pretendes proteger un modelo que tú mismo describes como capaz de revolucionar los ciberataques?

Y lo que más me preocupa, para terminar,  no es solo Anthropic, sino también OpenAI con GPT-5.3, con capacidades similares, y Google con Gemini 3.1, empujando en la misma dirección .

Todos en una carrera endiablada, aunque ninguno de los tres tiene una respuesta convincente a la pregunta: ¿Qué pasa cuando estos modelos se usan contra nosotros?

Claude Mhytos Antrhopic El Blog de Salvador Vilalta

El nombre lo dice todo

Me hizo gracia que el nombre interno sea Capybara. El carpincho, el animal más tranquilo del planeta. el bicho que se sienta en un jacuzzi sin preocuparse de nada mientras cocodrilos pasan a su lado.

Que la IA más potente y potencialmente más peligrosa que Anthropic ha creado se llame como el animal más relajado del mundo… hay algo de humor negro ahí que a alguien en Anthropic le pareció una buena idea o quizás es exactamente lo que pretenden.

Que el nombre suene inofensivo, que la gente no se asuste. Pues bueno, yo , un poco asustado, sí que estoy.

Te dejo aquí un buen análisis del modelo realizado por Mathew Berman.  En este se comenta sobre el Project Glasswing, en torno al cual se han unido compañías como Google, Microsoft, Apple, Amazon y NVIDIA para probar el sistema antes de liberarlo, debido al riesgo que este supone para el mundo. Es bestial

Lo que viene ahora

Mythos no tiene una fecha de lanzamiento pública. Anthropic dice que es “extremadamente intensivo en computación y costoso de ejecutar” y que está trabajando en mejoras de eficiencia antes de su disponibilidad general.

Mientras tanto, lo están probando con clientes de acceso anticipado. Lo que sí sabemos es que esto va a acelerar todo.

OpenAI y Google no se van a quedar mirando. Si Anthropic tiene un tier por encima de Opus, los demás van a tener que responder y la presión competitiva nunca ha sido amiga de la prudencia.

En paralelo, Anthropic sigue litigando contra el Pentágono por la designación de “riesgo para la seguridad nacional” (Aquí os dejo un artículo al respecto).

Un tribunal le concedió una medida cautelar favorable la misma semana de la filtración. La empresa que el gobierno considera un riesgo tiene entre manos el modelo que más debería controlar. Si eso no te pone los pelos de punta, no sé qué sí lo hará.

Estamos en un momento donde las empresas de IA crean cosas que les asustan a ellas mismas, las filtran por error, y el mercado reacciona hundiendo las acciones de las empresas que se supone que nos protegen de exactamente eso.

Es un bucle que parece diseñado por un guionista con sentido del humor muy negro.

Yo seguiré usando Claude todos los días. Es una herramienta extraordinaria, pero me gustaría que la empresa que lo hace pudiera al menos mantener sus propios documentos internos fuera del alcance público..

¿Y vosotros? ¿Os parece bien que existan modelos de IA que sus propios creadores reconocen que son peligrosos?

Déjame tus comentarios, me encantará leerte

¡Buena semana!

¿Te ha gustado este contenido?

Si te ha gustado este contenido y quieres acceder a contenido exclusivo para suscriptores, suscríbete ahora. Agradezco de antemano tu confianza

Leave a comment

Go to Top
Suscríbete a mi Blog

Sé el primero en recibir mis contenidos

Descárgate El Método 7

El Método 7 puede será tu mejor aliado para incrementar tus ventas