Tecnología

Google I/O 2024: Proyecto Astra.

Se presentó un prototipo de asistente digital capaz de combinar texto, imagen, vídeo y audio en tiempo real.

Alejandro Bertochi

16 de may. de 2024 4 min de lectura

Durante la celebración de Google I/O, el evento para desarrolladores en el que la empresa presenta sus últimas innovaciones y noticias de productos, Google ha anunciado sus avances poco después de que OpenAI presente GPT-4o, el nuevo modelo de inteligencia artificial de la empresa que combina entradas y respuestas en texto, imágenes, audio y video.

En esta ocasión, Google ha presentado los avances en su familia de modelos de inteligencia artificial llamados Gemini, que son capaces de razonar a través de texto, imágenes, audio, video y código.

Gemini, que se presentó el pasado diciembre como la nueva era de Bard, su modelo original, ha presentado la versión Gemini 1.5 Flash, la actualización de Gemini 1.5 Pro y actualizaciones de Gemini Nano, entre otras cosas.
Sin embargo, lo más destacado del evento celebrado fue el Proyecto Astra, el cual representa su perspectiva sobre el futuro de los asistentes de inteligencia artificial.

El Proyecto Astra es un prototipo de asistente de IA universal que tiene como objetivo ser útil y acompañar en todos los aspectos de la vida cotidiana, según Demis Hassabis, cofundador de Google DeepMind, durante la presentación.

Según un vídeo compartido por la empresa, el Proyecto Astra tiene la capacidad de comprender el entorno y responder a las preguntas de los usuarios sobre él. Además, reconoce objetos, reconoce líneas de código en una computadora y explica para qué sirven, responde a instrucciones de audio con creaciones creativas e incluso recuerda la posición de los objetos en el espacio. De esta manera, ha demostrado su habilidad para interpretar, aprender y responder a una variedad de formatos en tiempo real.

Además, destaca que los usuarios podrán aprovechar sus capacidades desde otros dispositivos, como unas gafas inteligentes, además de usarlas en el teléfono móvil. Esto demuestra el deseo de Google de incorporar gradualmente este asistente a sus diversos productos. “A finales de este año, algunas de estas capacidades llegarán a los productos de Google, como la aplicación Gemini”, ha declarado la empresa.

Según comentan desde Google, Proyecto Astra responde a la misión de Deepmind de crear una IA responsable que beneficie a todo el mundo. “Para ser útil de verdad, un agente tiene que ser capaz de entender y responder a la compleja y dinámica realidad del mundo igual que lo hacemos las personas”, explican desde la tecnológica. “Y, además, asimilar y recordar todo lo que ve y escucha para comprender el contexto y actuar en consecuencia. También tiene que ser proactivo, didáctico y personal, para que los usuarios puedan hablar con él de forma natural, sin retrasos ni esperas”.

Sin embargo, reconocen que disminuir el tiempo de respuesta a un nivel conversacional es un desafío de ingeniería complejo, pero destacan el trabajo realizado para mejorar la forma en que los modelos perciben, recuerdan, razonan y conversan para que el ritmo y la calidad de la interacción sean más naturales. La base del Proyecto Astra en Gemini y otros modelos de tareas específicas ha permitido diseñarlos para procesar la información más rápido y almacenarla en caché para recuperar la información de manera eficiente.

El Proyecto Astra disminuye la brecha entre lo que Spike Jonze imaginó en la película "Her" y la realidad, como lo ha demostrado la llegada de GPT-4o esta semana, a pesar de que Sam Altman, CEO de OpenAI, bromeó sobre esto. Los avances de ambas empresas muestran cómo se está naturalizando la interacción entre las personas y la inteligencia artificial, y adelantan un escenario en el que los asistentes virtuales serán cada vez más integrados en el día a día.

Otras actualizaciones presentadas en Google I/O.

Además de las actualizaciones y modificaciones de la familia Gemini y del Proyecto Astra, Google ha revelado avances en diversos campos, aunque la mayoría están relacionados con la inteligencia artificial. La siguiente es una lista de cinco cambios que hemos considerado relevantes:

Ask Photos.

Esta nueva funcionalidad basada en Gemini permitirá a los usuarios realizar búsquedas inteligentes y mediante lenguaje natural entre sus fotografías. A finales de este verano, Ask Photos, que se basa en la comprensión de la IA del contenido de sus fotografías y otros metadatos, disminuirá los procesos de búsqueda naturales.

Circle to Search

Aunque Samsung presentó previamente la funcionalidad Círculo de búsqueda en sus teléfonos Galaxy S24, Google ha agregado algunas mejoras. Con el gesto de rodearse con un círculo aquello sobre lo que desean ampliar información, la herramienta permite a los usuarios de Android obtener respuestas instantáneas. Antes, los usuarios podían más información sobre lo que se destacaba manualmente con un círculo de una imagen, pero ahora también puede resolver problemas más complejos, como de física o matemáticas, convirtiéndose en un aliado de los estudiantes.

Rastreo de llamadas y estafas.

Google ha presentado una nueva funcionalidad en Gemini Nano que permite identificar posibles estafas durante las llamadas utilizando la inteligencia artificial para detectar patrones de conversación frecuentemente asociados con este tipo de engaños en tiempo real.

Imagen 3.

Además, Google presentó Imagen 3, una actualización de su herramienta de inteligencia artificial generativa de creación de imágenes. Esta ahora comprende con mayor precisión las instrucciones de texto que traducen en imágenes, y según la empresa, es más creativa y detallada que sus predecesores.

Veo.

Google tiene la intención de imponerse en el campo de los modelos de IA para la creación de vídeos, enfrentándose a OpenAI y a Sora. Veo es su respuesta, una herramienta que puede crear clips de video alrededor de un minuto utilizando instrucciones de texto. Puede responder a una variedad de estilos visuales y cinematográficos, como panorámicas y timelapses, y editar y ajustar el metraje que ya ha generado.