Esta semana quería comentaros al respecto de un tema muy relevante y que, por algún motivo, ha pasado totalmente inadvertido para muchos.
El pasado miércoles 26 de marzo, dos investigadores de seguridad, uno de LayerX Security y otro de la Universidad de Cambridge, descubrieron que Anthropic, la empresa detrás de Claude, tenía casi 3.000 archivos internos expuestos al público en una base de datos no protegida. Además, parecían documentos sin clasificar, borradores de posts, comunicaciones internas y todo visible para cualquiera que supiera dónde mirar.
Y entre esos documentos había uno realmente significativo. Un borrador de blog que describe un modelo de IA que Anthropic lleva desarrollando en secreto. Un modelo tan potente que la propia empresa avisa a gobiernos de que puede hacer que los ciberataques a gran escala sean “mucho más probables en 2026”.
Se llama Claude Mythos.y su nombre interno es Capybara.
La filtración más irónica del año
Fortune fue el primer medio en revisar los documentos y contactar con Anthropic.
La respuesta de la compañía fue bastante curiosa.. De hecho, no negaron nada y además confirmaron que el modelo existe, que está en pruebas con clientes seleccionados y que representa, “un salto cualitativo en rendimiento y el más capaz que hemos construido hasta la fecha” (cita textual).
Después de esto, cerraron el acceso público a la base de datos.
La ironía es brutal. Anthropic, la empresa que lleva meses litigando contra el Pentágono por cuestiones de seguridad nacional, filtra su arma más potente debido a un error de configuración en su CMS.
Los archivos estaban públicos por defecto. Alguien se olvidó de marcarlos como privados, así de simple.
Error humano, dijeron. No se comprometieron datos de clientes ni la infraestructura core. Solo… los planos de lo que podría ser la IA más peligrosa jamás creada. Nada grave.
¿Qué es exactamente Mythos?
Hasta ahora, Anthropic tenía tres niveles de modelo: Haiku (rápido y barato), Sonnet (equilibrado) y Opus (el más potente). Capybara es un cuarto nivel, por encima de Opus.
Nunca antes Anthropic había añadido un nuevo tier por arriba y los números que se filtran del borrador son para prestarles atención. Puntuaciones “dramáticamente superiores” a Claude Opus 4.6 en benchmarks de programación, razonamiento académico y ciberseguridad. En SWE-bench, el test estándar de ingeniería de software, en mejoras de doble dígito porcentual y en capacidades de ciberseguridad, el documento dice que Mythos está “actualmente muy por delante de cualquier otro modelo de IA”. De cualquiera.
No hay cifras públicas exactas todavía. Anthropic no ha lanzado ningún anuncio oficial ni página de producto. Lo que sabemos viene del borrador filtrado, y la empresa lo describe como “señales direccionales” más que como especificaciones definitivas.
Pero cuando el propio creador de la herramienta dice que su nueva creación puede encontrar y explotar vulnerabilidades de software más rápido de lo que los defensores pueden parchearlas… quizás deberíamos prestar algo de atención, ¿no os parece?
El día que las acciones de ciberseguridad se desplomaron
Al día siguiente de la filtración, el 27 de marzo, Wall Street hizo lo que mejor sabe hacer: entrar en pánico. CrowdStrike cayó un 7%, Palo Alto Networks, un 6%, Zscaler, un 4,5% y el ETF iShares de Ciberseguridad se dejó un 4,5% en una sola sesión. Okta, SentinelOne, Fortinet, todas cayeron alrededor del 3%. ¿
¿Os acordáis de que hablamos recientemente de SaaSPocalypse por algo muy parecido?
La lógica del mercado fue instantánea y despiadada: si una IA puede descubrir vulnerabilidades más rápido de lo que las empresas de seguridad pueden proteger contra ellas, toda la propuesta de valor del sector se tambalea. Y eso es exactamente lo que Mythos parece prometer.
El borrador filtrado lo dice sin rodeos: el modelo “presagia una ola de modelos que pueden explotar vulnerabilidades de maneras que superan con creces los esfuerzos de los defensores”. La IA está dando más ventaja a los atacantes que a los que se defienden.
Eso es lo que Anthropic está comunicando en privado a altos cargos del gobierno estadounidense. Que su propio modelo hace más probable que haya ciberataques masivos este año.
La carrera por arriba
Para poner esto en contexto.
En febrero, OpenAI lanzó GPT-5.3 Codex, el primer modelo entrenado explícitamente para identificar vulnerabilidades.
Google DeepMind sacó Gemini 3.1 Pro empujando el razonamiento y la programación. Y ahora Anthropic revela (sin querer) que tiene un modelo que supera a ambos.
Tres laboratorios, tres frontier models. Todos desarrollados al mismo tiempo y con capacidades de doble uso que nadie sabe cómo controlar. ¿Os acordáis de cuando la carrera de la IA giraba en torno a quién generaba mejor texto o mejores imágenes?
Ahora va de quién hackea más rápido. El dilema que nadie quiere resolver
Es en este punto donde la historia se pone incómoda
Mythos es lo que parece, peligroso y Anthropic, evidentemente , lo sabe.
De hecho, lo indica en su propio borrador, señalando que las capacidades del modelo representan “riesgos sin precedentes” y que su estrategia para mitigarlos es dar acceso anticipado a organizaciones de ciberseguridad defensiva , es decir, que los buenos tengan la herramienta antes que los malos.
La propia existencia de este nuevo modelo implica que el genio ya está fuera de la lámpara.
De hecho, es difícil controlar quién y cómo lo usa, especialmente cuando se ha empleado Claude en ciberataques coordinados contra cerca de treinta organizaciones.
¿No os parece irónico que todo esto haya salido a la luz por una filtración? Sinceramente es. raro… raro… de aurora boreal
Que Anthropic , la empresa más responsable del sector, la que le dijo que no al Pentágono por principios éticos, tenga archivos internos abiertos al público por un descuido, no tiene mucho sentido. Si no eres capaz de proteger tu propio CMS, ¿cómo pretendes proteger un modelo que tú mismo describes como capaz de revolucionar los ciberataques?
Y lo que más me preocupa, para terminar, no es solo Anthropic, sino también OpenAI con GPT-5.3, con capacidades similares, y Google con Gemini 3.1, empujando en la misma dirección .
Todos en una carrera endiablada, aunque ninguno de los tres tiene una respuesta convincente a la pregunta: ¿Qué pasa cuando estos modelos se usan contra nosotros?
El nombre lo dice todo
Me hizo gracia que el nombre interno sea Capybara. El carpincho, el animal más tranquilo del planeta. el bicho que se sienta en un jacuzzi sin preocuparse de nada mientras cocodrilos pasan a su lado.
Que la IA más potente y potencialmente más peligrosa que Anthropic ha creado se llame como el animal más relajado del mundo… hay algo de humor negro ahí que a alguien en Anthropic le pareció una buena idea o quizás es exactamente lo que pretenden.
Que el nombre suene inofensivo, que la gente no se asuste. Pues bueno, yo , un poco asustado, sí que estoy.
Te dejo aquí un buen análisis del modelo realizado por Mathew Berman. En este se comenta sobre el Project Glasswing, en torno al cual se han unido compañías como Google, Microsoft, Apple, Amazon y NVIDIA para probar el sistema antes de liberarlo, debido al riesgo que este supone para el mundo. Es bestial
Lo que viene ahora
Mythos no tiene una fecha de lanzamiento pública. Anthropic dice que es “extremadamente intensivo en computación y costoso de ejecutar” y que está trabajando en mejoras de eficiencia antes de su disponibilidad general.
Mientras tanto, lo están probando con clientes de acceso anticipado. Lo que sí sabemos es que esto va a acelerar todo.
OpenAI y Google no se van a quedar mirando. Si Anthropic tiene un tier por encima de Opus, los demás van a tener que responder y la presión competitiva nunca ha sido amiga de la prudencia.
Un tribunal le concedió una medida cautelar favorable la misma semana de la filtración. La empresa que el gobierno considera un riesgo tiene entre manos el modelo que más debería controlar. Si eso no te pone los pelos de punta, no sé qué sí lo hará.
Estamos en un momento donde las empresas de IA crean cosas que les asustan a ellas mismas, las filtran por error, y el mercado reacciona hundiendo las acciones de las empresas que se supone que nos protegen de exactamente eso.
Es un bucle que parece diseñado por un guionista con sentido del humor muy negro.
Yo seguiré usando Claude todos los días. Es una herramienta extraordinaria, pero me gustaría que la empresa que lo hace pudiera al menos mantener sus propios documentos internos fuera del alcance público..
¿Y vosotros? ¿Os parece bien que existan modelos de IA que sus propios creadores reconocen que son peligrosos?
Déjame tus comentarios, me encantará leerte
¡Buena semana!
FUENTES DE INTERÉS
- Fortune — “Exclusive: Anthropic ‘Mythos’ AI model representing ‘step change’ in power revealed in data leak”
- Fortune — “Anthropic exposed nearly 3,000 internal files in unsecured data cache”
- Euronews — “What is Anthropic’s Mythos? The leaked AI model that poses ‘unprecedented’ cybersecurity risks”
- CoinDesk — “Anthropic’s massive Claude Mythos leak reveals a new AI model that could be a cybersecurity nightmare”
- Axios — “Everyone’s worried that AI’s newest models are a hacker’s dream weapon”
- Benzinga — “Cybersecurity Stocks Slide Following Anthropic Claude Mythos Data Leak”
- Futurism — “Anthropic Just Leaked Upcoming Model With Unprecedented Cybersecurity Risks in the Most Ironic Way Possible”
- CNBC — “Anthropic wins preliminary injunction in DOD fight as judge cites First Amendment retaliation”
- MindStudio — “Claude Mythos vs Claude Opus 4.6: How Big Is the Capability Jump?”
