Esta semana Google lanzó por fin su esperado Modelo de IA Gemini, diseñado desde cero con capacidades Multi-modales nativas.
El lanzamiento no ha dejado indiferente a nadie ya que podría suponer un paso adelante en el desarrollo de la Inteligencia Artificial, permitiendo. a Google (en teoría), ponerse en cabeza, un paso por delante de OpenAI, su principal competidor.
Entiendo ahora los numerosos lanzamientos realizados por OpenAI en semanas anteriores, intentando conseguir un golpe de efecto y un posicionamiento como líder en el mercado de la IA. Con este lanzamiento Google parece igualar las expectativas como poco.,
DeepMind: La mente maestra detrás de Gemini
Gemini es un producto de DeepMind, una empresa de investigación en inteligencia artificial fundada en 2010 por Demis Hassabis, Shane Legg, y Mustafa Suleyman. Desde su creación, DeepMind ha realizado importantes contribuciones a la IA, incluyendo el desarrollo de AlphaGo, el primer programa de ajedrez que derrotó a un campeón mundial sin ayuda humana, y AlphaFold, el primer programa que predice estructuras de proteínas con precisión humana.
DeepMind fue adquirida por Google en 2014, y desde entonces ha seguido realizando investigaciones pioneras en IA. Gemini es uno de sus últimos logros, y representa un paso importante hacia la creación de sistemas de IA que puedan interactuar con los humanos de manera más natural y efectiva.
Pero, veamos qué capacidades nos permite Gemini y la mejor manera de hacerlo es viendo el video oficial de su lanzamiento donde ya se plantean sus capacidades multi-modales o “anything to anything” como plantea Google.
Comparación de Gemini con sus pares LLM
La naturaleza multimodal de Géminis lo distingue de otros LLM, que típicamente sobresalen en uno u otro de los procesamientos de texto o voz. Esta capacidad única permite a Géminis cambiar sin problemas entre estas modalidades, lo que le permite:
- Sintetizar voz de calidad humana a partir de instrucciones de texto: Gemini puede leer cualquier instrucción de texto y generar un archivo de audio correspondiente, lo que lo hace ideal para crear tutoriales interactivos, podcasts y otros contenidos audio-visuales.
- Traducir idiomas en tiempo real: Gemini puede traducir entre idiomas manteniendo un flujo conversacional natural y fluido, permitiendo una comunicación sin problemas entre idiomas.
- Responder preguntas complejas de manera interactiva: Gemini puede participar en conversaciones abiertas, proporcionando respuestas a las preguntas y haciendo preguntas adicionales para aclarar las consultas de los usuarios.
Capacidades que expanden la interacción humano-computadora
Las capacidades de Gemini, teóricamente van más allá del procesamiento de texto y voz. También puede:
- Generar formatos de texto creativos: Puede producir varios formatos de texto creativo, incluyendo poemas, código, guiones, piezas musicales, correos electrónicos y cartas.
- Compone diferentes tipos de contenido creativo: Puede generar diferentes tipos de contenido creativo, como blogs, artículos, materiales de marketing y otras formas de contenido escrito.
- Responder preguntas abiertas, desafiantes o extrañas: Puede manejar preguntas abiertas, desafiantes o extrañas, incluso aquellas que requieren varios pasos para responder.
Pero ¿esta demo, es real? ¿Va más allá de comprar el rumor y vender la noticia?
Esta es una gran pregunta, pues quizás estemos ante un video que no se corresponde exactamente con las capacidades reales del Modelo. De hecho si profundizamos en cómo se preparó esta demo veremos que no parece que esta “conversación” con el modelo sea real. Lo ha explicado perfectamente DotCSV en el segundo video que lanzó recientemente.
Versiones del producto
Ultra: La potencia definitiva para tareas exigentes
Gemini Ultra es la versión más poderosa de Gemini, diseñada para manejar tareas de procesamiento de lenguaje natural de gran escala y complejidad. Con una capacidad de 176 billones de parámetros, es capaz de abordar problemas de texto a voz y voz a texto de manera excepcional, así como de generar contenido creativo de alta calidad. Gemini Ultra es ideal para aplicaciones que requieren el máximo rendimiento y un nivel de precisión sin precedentes.
Pro: Versatilidad para una amplia gama de escenarios
Géminis Pro se enfoca en ofrecer una combinación equilibrada de rendimiento y eficiencia, lo que lo convierte en una opción versátil para una variedad de aplicaciones. Con una capacidad de 60 billones de parámetros, Gemini Pro ofrece un desempeño sólido en una amplia gama de tareas, desde traducir idiomas hasta responder preguntas de manera interactiva. Gemini Pro es ideal para aplicaciones que requieren un equilibrio entre rendimiento y eficiencia, tales como sistemas de asistencia virtual y chatbots avanzados.
Nano: Soluciones compactas para dispositivos y aplicaciones limitados
Géminis Nano está específicamente diseñado para dispositivos y aplicaciones con recursos limitados, como smartphones y dispositivos portátiles. Con una capacidad de 0.6 billones de parámetros, Gemini Nano ofrece una experiencia de procesamiento de lenguaje natural eficiente y compacta, sin sacrificar la calidad y el rendimiento. Gemini Nano es ideal para aplicaciones que requieren un tamaño de modelo pequeño y un consumo de energía reducido, como asistentes de voz integrados y aplicaciones de traducción de bolsillo.
Un futuro centrado en interfaces de voz
El futuro de Gemini y los LLM multi-modales radica en su capacidad de crear interfaces de voz naturales e intuitivas.
Es uno de los temas que más me apasiona ya que pasar de interacciones realizadas mediante teclados a otras realizadas de forma más fluida mediante la voz, puede suponer un salto cualitativo en la interacción hombre-máquina.
A medida que las interacciones basadas en voz se vuelven cada vez más prevalentes, la capacidad de estos sistemas de cambiar sin problemas entre texto y voz será invaluable para desarrollar sistemas de inteligencia artificial conversacionales que puedan comprender y responder a las solicitudes de los usuarios de manera similar a los humanos. Los Asistentes Virtuales de verdad (no los Siri de turno).
Extrayendo insights de literatura científica
Este es uno de los videos que me fascinaron de esta presentación. En el mismo se demuestra como Gemini en pocas horas procesó 200.000 papers científicos, extrajo los datos relevantes de estos y actualizó una tabla creada manualmente por científicos durante años e incluso actualizó un gráfico con los nuevos datos identificados. Puedes ver esta capacidad en el siguiente video.
Y es que en la Investigación Científica (al igual que en otros campos científicos) la IA está siendo un brutal acelerador de procesos que, con toda seguridad, redundarán en beneficios muy rápidos para el ser humano que todos nosotros podremos disfrutar en los próximos años.
Generación de diferentes formatos de salida en función del contexto
A priori, la capacidad de Gemini para crear interfaces basadas en las respuestas que proporciona a las preguntas de los usuarios es una de sus características más únicas y potentes. Esta capacidad permite a Gemini no solo proporcionar respuestas informativas y útiles a las consultas de los usuarios, sino también generar interfaces de forma dinámica adaptadas a las necesidades y preferencias específicas del usuario.
Esta es una de las funcionalidades que mas me sorprendió en los primeros videos de lanzamiento del producto en el que se veía claramente como la respuesta de Gemini era distinta en función de la pregunta realizada. Por ejemplo el sistema generaba galerías de imágenes en respuesta a una pregunta relacionada con recetas de cocina pero te cambiaba a otro interfaz paso a paso cuando le pedías instrucciones para cocinar una receta… Si esta funcionalidad es cierta, tendremos ante nosotros un gran avance.
Aquí hay algunos ejemplos de cómo Gemini puede teóricamente utilizar esta capacidad:
- Crear tutoriales interactivos: Gemini puede generar instrucciones paso a paso para que los usuarios las sigan, junto con elementos interactivos como botones y controles deslizantes, para hacer que el proceso de aprendizaje sea más atractivo.
- Personalizar los feeds de noticias: Gemini puede analizar las preferencias y los intereses de los usuarios para crear un feed de noticias personalizado que resalta los artículos que son más relevantes para ellos.
- Diseño de paneles personalizados: Gemini puede ayudar a los usuarios a crear paneles personalizados que proporcionan datos y conocimientos en tiempo real sobre su negocio, proyectos o objetivos personales.
- Generar mapas interactivos: Gemini puede crear mapas interactivos que permiten a los usuarios explorar datos, rutas o información geográfica de manera visualmente atractiva e informativa.
Al aprovechar sus capacidades multi-modales y la comprensión de las necesidades de los usuarios, Gemini puede integrar texto, gráficos y otros elementos interactivos de manera fluida para crear interfaces intuitivas y atractivas que mejoren la experiencia del usuario. Esta capacidad de crear interfaces basadas en las respuestas que proporciona hace de Gemini una herramienta valiosa para una amplia gama de aplicaciones, desde educación y comercio electrónico hasta gestión de relaciones con clientes y visualización de datos.
No obstante si debo decir que de momento, todo lo que hemos visto del Modelo, ha sido en videos y todavía no está refrendado sobre el modelo de Bard que actualmente usamos. En la medida que vayan desplegándose sus funcionalidades y podamos probarlas, podremos refrendar las capacidades del nuevo modelo.
Si quieres probar algunas de estas nuevas capacidades en Bard, puedes hacerlo siempre que realices los prompts en inglés. Esto es algo que tampoco entiendo, ya que el modelo debería haber sido lanzado en múltiples idiomas…
Espero que esta información os haya resultado interesante.
¡Buena semana!
Referencias
- Blog de Google
- Google has quietly pushed back the launch of next-gen AI model Gemini until next year, report says (Business Insider)
- End of ChatGPT dominance? Google’s Gemini to launch this fall with significant upgrades
- Here’s what we know so far about Google’s Gemini
- Welcome to the Gemini era (DeepMind)
- Google Gemini ya está aquí, primeras impresiones (DotCSV)
- Google Gemini: qué es, cómo funciona, diferencias con GPT y cuándo podrás usar este modelo de inteligencia artificial
- Google lanza Gemini… y vuelve a no impresionar (Enrique Dans)
- ¿Qué es Gemini, el modelo de IA más avanzado de Google? (Wired)
- [UPDATE] DECEPCIÓN con la DEMO de GOOGLE GEMINI (DotCSV)