Esta última semana ha sido realmente prolija en el lanzamiento de las últimas Innovaciones en Modelos de Inteligencia Artificial: Gemini 2.0, OpenAI o1 PRO, Llama 3.3, Cognition Labs Devin, Aurora de Grok y Sora de OpenAI.
Os dejo con un resumen fantástico realizado por Mathew Bergman sobre todas estas novedades y alguna más, relativa a computación cuántica. Por cierto, este es un contenido que cubriré en alguno de mis siguientes posts ya que me interesa sobremanera el salto que puede suponer disponer de una capacidad de computación imposible de imaginar con los sistemas actuales.
1. Gemini 2.0: La Joya de Google
Gemini 2.0 es el último modelo de IA de Google, lanzado el 11 de diciembre de 2024 Introduce avances significativos en las capacidades de IA que lo colocan en las primeras posiciones del mercado.
Se trata de un modelo multimodal capaz de trabajar con texto, imágenes, audio y video, lo que significa que puede entender y generar contenido en varios formatos al mismo tiempo.
¿Qué hace que este modelo sea tan especial? Aquí te lo explico:
- Multimodalidad total: Por ejemplo, puedes pedirle que analice una imagen y genere una descripción en texto, o incluso que cree un audio multilingüe basado en un video. En el video anterior de AIGrid podréis ver como la capacidad de visión del modelo, conjuntamente con la de “explicar” mediante audio lo que está viendo, abre un sinfín de posibilidades que ya vimos en su día en el modelo 4o de OpenAI en la demostración que hizo Mira Murati con todo el equipo de OpenAI
- Agente de IA. También conocido como “Project Astra” El modelo puede actuar como un sistema inteligente, utilizando memoria, razonamiento y planificación para completar tareas bajo supervisión del usuario. Esta funcionalidad es realmente impresionante.
- Tomar el control de tu navegador Chrome: También conocido como “Proyecto Mariner” permite .controlar aplicaciones del ecosistema Google desde el explorador. Por ejemplo localizar en internet las direcciones de un listado de compañías que tienes en una hoja de Google Sheets. Se trata de una funcionalidad muy parecida al RPA pero movida con IA. Esta capacidad ya la hemos visto en otros sistemas de agentes de nivel 2,5 o 3 que ya cubrí en otro artículo que puedes encontrar aqui.
- Velocidad y eficiencia: La versión Gemini 2.0 Flash no solo es más rápida, sino también más económica en comparación con modelos anteriores. Gemini 2.0 procesa las solicitudes el doble de rápido que su predecesor, con un tiempo mejorado hasta el primer token (TTFT)
- Capacidades únicas: Puede ejecutar código a partir de instrucciones en lenguaje natural. Imagina decirle “escribe un programa para organizar mis fotos por fecha” y que lo haga automáticamente…
Por ejemplo consultar información, manejar un electrodoméstico., analizar textos manuscritos, que el sistema te describa un punto de interés que estás visitando, recomendaciones sobre compras, recibir indicaciones para llegar a una ubicación. Asimismo combinado con dispositivos de visión como unas gafas, podrían darnos instrucciones muy precisas a cualquier tipo de pregunta que le pudiéramos hacer al agente sin usar nuestro smartphone… ¿te imaginas?
2. OpenAI CHATGPT o1 PRO
Esta actualización del o1-preview, introduce capacidades avanzadas de razonamiento, con un enfoque en el uso de tiempo de computación adicional para resolver problemas complejos.
O1 Pro dedica más tiempo a pensar, logrando mejores respuestas en problemas técnicos.. Asimismo, es más rápido que su predecesor, O1 Preview, con una mejora del 50% en velocidad de razonamiento.
Destaca en áreas como razonamiento matemático, lógica y resolución de problemas complejos. Sin embargo, aún presenta limitaciones en tareas de visión y análisis multimodal.
Con un precio de 200 dólares al mes, está orientado a profesionales que requieran soluciones avanzadas en programación o razonamiento lógico.
3. Llama 3.3: La IA de Código Abierto de Meta
Meta ha presentado Llama 3.3, un modelo accesible diseñado para que desarrolladores de todo tipo puedan usarlo sin grandes costos o infraestructura. Aunque tiene 70 mil millones de parámetros, logra resultados comparables a modelos mucho más grandes.
- Accesible y eficiente: Perfecto para startups o investigadores con recursos limitados.
- Colaboración abierta: Su licencia permite modificarlo y usarlo libremente, lo que ha llevado a más de 650 millones de descargas.
- Progreso sostenible: Meta está construyendo centros de datos gigantes, como el de 2GW en Louisiana, para entrenar futuros modelos.
4. Devin: El Agente Autónomo para Desarrolladores
Si eres programador o trabajas con software, Devin puede cambiar tu vida.
Devin es una innovadora inteligencia artificial (IA) desarrollada por Cognition Labs, que se presenta como el primer ingeniero de software autónomo. Este sistema es capaz de llevar a cabo tareas de programación desde la conceptualización hasta la implementación, lo que incluye la escritura, depuración y prueba de código, así como el entrenamiento de otros modelos de IA
- Integración total con GitHub: Puede revisar tu código, identificar problemas y corregirlos automáticamente.
- Optimización de tiempo: Imagina tener un “asistente” que se encargue de los detalles técnicos mientras tú te concentras en el diseño o la estrategia.
Tiene un precio desde 500 USD al mes, lo que lo hace ideal para empresas que buscan maximizar productividad. mediante el uso de ingenieros autónomos movidos por IA.
5. Aurora de Grok: La Revolución en Generación de Imágenes
Por último, Aurora, un modelo de Grok especializado en imágenes, está marcando un antes y un después en creatividad visual.
- Detalles y realismo: Genera imágenes hiperrealistas basadas en descripciones textuales. Por ejemplo, podrías pedir “una escena de un bosque al amanecer con niebla” y obtener algo impresionante.
- Versatilidad: Además de crear, puede modificar imágenes en tiempo real, ajustándolas según tus necesidades.
Este modelo es ideal para industrias creativas como publicidad, diseño y producción de contenido. Es el modelo más permisivo en la generación de imágenes, pudiendo usar caras de famosos para realizar nuevas creaciones. Como puedes ver, tanto la imagen principal de este post, como la que tienes a continuación de Charlize Theron han sido generadas mediante un simple prompt en Grok.
6. OpenAI Sora
Tras 10 meses de espera, Sora debuta como una herramienta avanzada para la generación de videos realistas y creativos basada en prompts textuales.
Si eres usuario de la version Plus de ChatGPT tendrás acceso a 50 videos mensuales en 720p y con marca de agua. Si quieres empezar no obstante a crear contenidos más en serio, tendrás que desembolsar unos 200 dolares/mes para disfrutar de un acceso sin restricciones, resolución Full HD y sin marcas de agua.
Las funciones destacadas:de este modelo son:
- Generación multimodal: Usa imágenes o prompts para crear videos personalizados.
- Edición avanzada: Herramientas como Remix, Loop, Blend y Storyboard ofrecen gran control creativo.
- Estilos visuales: Opción de aplicar efectos como “Film Noir” o “Papercraft” para variar la estética.
En este primer caso el prompt ha sido muy sencillo y sin instrucciones omplejas ni storyboard. El resultado es bastante bueno
En este caso he obtenido con un simple prompt el texto SALVA entre las nubes cumulonimbus en un cielo azul. Resultado bastante bueno.
Como practicante de Aikido me interesaba cómo el m odelo podría interpretar movimientos complejos. Aqui si he usado un prompt más elaborado, aunque el resultado, como podéis apreciar dista bastante de la realizad y presente numerosos “artefactos” o alucinaciones.
Sin duda, esta ha sido una semana muy intensa en la presentación de multiples novedades.relacionadas con nuevas versiones de modelos actuales y nuevos modelos, que sin duda, nos harán la vida más fácil.
Y en tu caso ¿Cómo crees que estas tecnologías podrían impactar en tu trabajo o en tus proyectos personales?
¿Os estáis dando cuenta de a qué velocidad va esto? Ee a la vez apasionante pero también, sin duda, inquietante ¿Mo os parece?
Déjame tus comentarios y comparte tu opinión.
¡Buena semana!