Imagina que la IA deja de limitarse a responder “¿Qué sigue?” y empieza a pensar “¿Qué pasaría si muevo este objeto allí?”. Ese cambio de enfoque, de la predicción textual a la simulación física, es uno de los giros más interesantes en la carrera hacia la Inteligencia Artificial General (AGI).
Hasta ahora, el protagonismo lo habían tenido los grandes modelos de lenguaje (LLMs), entrenados para generar texto con fluidez y sentido. Pero una nueva línea de investigación está ganando terreno: los modelos de mundo, sistemas diseñados no para escribir, sino para imaginar, simular y actuar en entornos virtuales.
Este enfoque no es nuevo para quienes venimos siguiendo de cerca la evolución de la IA. Ya en un artículo anterior exploré cómo NVIDIA, con su plataforma Omniverse, está impulsando la creación de clones digitales del mundo real, capaces de transformar industrias enteras mediante la simulación de fábricas, ciudades o incluso del propio planeta. Aquella visión encaja perfectamente con lo que ahora propone la startup World Labs con Marble, un modelo de mundo multimodal, controlable e interactivo.
Ambas propuestas apuntan en la misma dirección: si los modelos de lenguaje han enseñado a las máquinas a leer y escribir, los modelos de mundo buscan enseñarles a ver, actuar y aprender del entorno. La combinación de ambas rutas podría acercarnos, por fin, a una inteligencia artificial con una comprensión más cercana a la humana.
Lenguaje vs. Mundo: dos rutas distintas a la inteligencia
Por un lado, los modelos de lenguaje (LLMs) aprenden a partir de grandes volúmenes de texto: predicen la “próxima palabra”, generan respuestas, escriben, traducen. Pero su conocimiento del mundo físico es indirecto: han leído sobre él, pero no lo han “vivido”.
Por otro lado, un modelo de mundo se enfoca en simular entornos físicos: objetos, luz, movimiento, interacción, de tal forma que la IA no solo “hable” sobre el mundo, sino que pueda “verlo”, “tocar” sus consecuencias, planificar dentro de él. La empresa World Labs, cofundada por la pionera de IA Fei‑Fei Li, acaba de lanzar su primer producto comercial, Marble, que va en esta dirección.
Diferencias clave entre un LLM y un modelo de mundo
Veámos ahora las diferencias entre ambas aproximaciones:
Base de conocimiento: LLMs aprenden de texto; los modelos de mundo de sensores, imágenes, simulaciones.
Objetivo de predicción: LLMs predicen palabras; los modelos de mundo predicen estados de un entorno, su evolución física o espacial.
Embodiment: Mientras los primeros “hablan” de acciones, los segundos permiten simular acciones (y experiencias) en un entorno virtual antes de realizarlas.
Modalidad / percepción: Los LLMs operan mayoritariamente en texto; los modelos de mundo son multimodales (visión, audio, posiblemente sensores físicos) y construyen un “modelo mental” del espacio.
La propuesta de Marble: edición, exportación e interoperabilidad
Marble va más allá de una demo: acepta como entrada texto, imágenes, vídeo, e incluso bocetos 3D para generar mundos virtuales que pueden editarse y exportarse a herramientas estándar., por ejemplo:
Tomar una simple foto de una habitación → Marble infiere y genera el resto de la escena en 3D. Aquí debajo puedes ver una prueba rápida que hice con este entorno.
Editar: cambiar mesas por bancos, modificar objetos y transformar el estilo visual sin rehacer desde cero.
Exportar: como «Gaussian splats», mallas 3D, video; lo que facilita integrarlo en pipelines de desarrollo de videojuegos, VFX, simulación industrial.
Para quien trabaja en automatización de procesos (como tú, Salva), esto toca un punto crucial: se abre la posibilidad de construir mundos simulados para que agentes automatizados (robots, procesos autónomos) aprendan de forma segura, rápida y escalable.
Aplicaciones y el potencial para la AGI
¿Por qué este enfoque genera tanto interés? Porque representa una vía hacia la experiencia de la IA, no solo hacia el procesamiento de texto. Algunos ejemplos concretos:
Un robot en una planta industrial puede “probar” millones de ensayos en un gemelo digital generado por un modelo de mundo antes de actuar en real.
Vehículos autónomos entrenándose en entornos virtuales variados para capturar situaciones raras que en el mundo real serían costosas o peligrosas.
Creación de mundos para educación, realidad virtual, planificación urbana donde la IA simula “qué ocurre si…” con variables múltiples.
Y desde el punto de vista de AGI: la combinación de lenguaje + mundo podría dar lugar a agentes que no solo interpreten lo que se les dice, sino que simulen lo que acontece, actúen en consecuencia, aprendan de la experiencia. Esa convergencia es lo que muchos ven como el próximo gran escalón.
Algunas reservas críticas:
- Aunque la tecnología es prometedora, aún existe un gap entre “generación de mundos” y “agentes inteligentes dentro de esos mundos”. No basta con generar escenas 3D bonitas; la IA debe interactuar, razonar, planificar y aprender.
Los costes computacionales, la calidad de simulación, y la fidelidad a la física real siguen siendo barreras.
La integración con procesos reales (industrial, automotriz, robótica) implica desafíos: sensores, actuadores y entornos híbridos real/simulado.
Existe el riesgo de sobrevaloración: que se presente como “solución AGI” cuando, en realidad, es un componente más de una arquitectura mucho mayor.
Los modelos de mundo controlables como Marble representan una evolución relevante en la IA: desde “solo lenguaje” hacia “experiencia de mundo”. No compiten con los LLMs, sino que los amplían: si los LLMs enseñaron a las máquinas a leer y escribir, los world models les enseñan a ver, actuar y simular.
En el camino hacia la AGI, la convergencia de lenguaje + mundo parece cada vez más plausible como arquitectura de futuro.
¿Y tú qué opinas?
-
¿Crees que los modelos de mundo como Marble representan el camino correcto hacia una IA verdaderamente inteligente?
-
¿Qué industrias crees que se verán más impactadas por la posibilidad de simular entornos complejos con IA?
-
¿Ves aplicabilidad directa de estas tecnologías en tu sector o negocio?
-
¿Te imaginas colaborando con una IA en un entorno 3D para diseñar, planificar o entrenar procesos?
-
¿Cómo combinarías tú el poder del lenguaje y la simulación para resolver un problema real?
Déjame tus comentarios, ideas o incluso casos de uso que se te ocurran. Me interesa mucho conocer cómo ves tú esta convergencia entre el texto y el mundo, entre la predicción y la experiencia. ¡Hablemos!
FUENTES
