👆👆👆 Suscríbete a nuestro podcast. Y mejor aún, a nuestro boletín mensual: todo cosas útiles que no encontrarás en otro lado, una vez al mes.
Esta misma semana han tenido lugar dos eventos muy importantes para desarrolladores. Y ya lo siento, pero, una vez más, de lo único de lo que se ha hablado en ellos es de IA generativa. La cosa es así 🤷🏻♂️ Y si todavía crees que esto de la IA no va contigo... siento decirte que estás en un error.
Evento de primavera de Open AI
Open AI emitió online el pasado lunes su "Actualización de primavera", para presentar sus novedades. Aunque el hype estaba muy alto, ya se sabía que en principio no habrá un GPT-5 en el futuro inmediato. Sin embargo, las novedades han sido muy importantes de todos modos. La principal: la presentación del nuevo modelo GPT-4o. Ese apellido, "o", es de "omni" porque el nuevo modelo le pega a todo, vamos: entiende texto escrito, imágenes, vídeo y también voz. Pero también genera todas esas salidas. Esto facilita mucho la posibilidad de crear aplicaciones que no dependan de convertir audio a texto: podemos hablar directamente con el modelo que, si queremos, también podrá vernos y actuar en consecuencia de lo que ve.
Una de las cosas más interesantes es el modo de procesar el audio. Anteriormente cuando hablabas con chatGPT lo que ocurría por debajo es que se convertía la voz a texto, esto se pasaba al modelo GPT subyacente (GPT-4 por ejemplo), que respondía con texto, que a su vez se convertía en voz sintética. Esto hacía que el tiempo medio de respuesta a lo que le decías anduviese en unos 5 segundos y medio para GPT-4 y algo más de la mitad con GPT 3.5.
Con GPT-4o esto no es necesario: el modelo entiende y genera directamente la voz, por lo que es mucho más rápido. La media de tiempo de respuesta anda en torno a 320 milisegundos. Esto permite mantener conversaciones naturales con el modelo, incluso interrumpiéndolo mientras habla, como con una persona.
Los vídeos de ejemplo que se vieron durante la presentación, y que tienes en el post de lanzamiento (enlazado arriba) son impresionantes. Las voces sintéticas suenan muy naturales, dándole una entonación adecuada para cada casuística y tipo de respuesta e incluso adaptándose a las expresiones del interlocutor si está activado el procesado de imagen. En español tienen un ligero acento "raro", como le pasa a otras voces sintéticas como las de ElevenPaths, pronunciando las "ces" como "eses" suaves, y cosas así. Pero muy buenas de todos modos.
Desde ya, tienes disponible GPT-4o como modelo por defecto en la versión gratuita de ChatGPT, aunque con algunas limitaciones de número de mensajes todavía. Pero este modelo es un avance brutal respecto a GPT 3.5, sin la lentitud de GPT-4. Ah, además es mucho mejor con idiomas distintos del inglés, como el español. Pronto, además, si usas la versión gratuita de chatGPT también podrás acceder a los GPTs y al intérprete de código, como en la versión de pago.
En mis primeras pruebas de estos días, comparando tareas con la versión anterior de chatGPT, esta con GPT-4o es mucho mejor en todo. Es un salto adelante brutal.
En cuanto a su uso en tus propias aplicaciones, ya se puede utilizar también desde la API de OpenAI. Cuesta la mitad que GPT 4 Turbo, aunque sigue siendo 10 veces más caro que GPT 3.5. Eso sí, el salto de calidad y las posibilidades que ofrece merecen la pena y combinando ambos podremos obtener un equilibrio muy bueno.
Según OpenAI todo esto es nuevo incluso para ellos y todavía estamos empezando a rascar la superficie de lo que el modelo es capaz de hacer, pero también de sus limitaciones.
Google I/O
La otra gran cita de esta semana fue Google I/O, la conferencia para desarrolladores del gigante de internet. Eso sí, el protagonismo total y absoluto se lo ha vuelto a llevar la Inteligencia Artificial y sobre todo los modelos generativos de la empresa.
Modelos Gemini
Aunque Gemini 1.5 Pro todavía se anunció en febrero, acaban de presentar una nueva versión del modelo, denominada Gemini 1.5 Flash. El nombre es porque se trata del modelo Gemini más rápido que tenemos a través de la API, y es una alternativa más barata que Gemini 1.5 Pro, pero sin dejar de tener unas capacidades excepcionales. De hecho han actualizado Gemini 1.5 Pro para proporcionar respuestas de mejor calidad en muchas áreas diferentes, incluida la traducción, el razonamiento o la generación de código entre otras.
Esta versión y su millón de tókenes de contexto va a estar disponible no solo como API sino también en las versiones de pago Gemini Advanced para usuarios finales, con las posibilidades que ello conlleva para análisis de documentos o de archivos de datos enormes. Imagínate por ejemplo, subir las 20 o 30 mil líneas de código fuente de la aplicación de tu empresa a este modelo y poder trabajar con esta información como contexto. ¡Bufff!
Como última sorpresa sobre esto, Google ha dicho que pronto van a ofrecer 2 millones de tókenes de ventana de contexto en los modelos, dejando tan atrás a los demás modelos en este aspecto que no sé cuándo los van a poder alcanzar.
En cuanto a la versión nano de Gemini, pensada para móviles y dispositivos con poca capacidad de procesamiento, ahora puede interpretar imágenes además de texto. Y próximamente también audio, de forma parecida a GPT-4o, aunque seguramente mucho menos potente dado su tamaño.
Gemini va a reemplazar al asistente de Google en la próxima versión de Android, del mismo modo que se espera que chatGPT o algo similar reemplace a Siri en los iPhone.
Modelos Gemma
Los modelos Open Soruce hermanos de Gemini, llamados Gemma, también han tenido novedades. En primer lugar el anuncio de que aparecerá su versión 2 para junio, que serán más capaces, estarán optimizados para usar TPUs (los nuevos chips especializados en ejecutar LLMs, como los de Groq, de los que ya te he hablado) y además tendrán una nueva variante de 27 mil millones de parámetros (27b).
Además han presentado PaliGemma, una variante de Gemma con capacidades de análisis visual, que puede describir imágenes y videos cortos, dar respuesta a preguntas visuales, comprende el texto y ofrece detección y segmentación de objetos en imágenes. Puedes añadir todas esas características a tus apps de manera gratuita, ya que es Open Source como toda la gama de modelos Gemma.
Generación de vídeo e imágenes
Otro jardín en el que se ha metido Google, porque realmente solo unos pocos se pueden meter, es en la generación de vídeo, para lo cual han presentado el modelo VEO.
VEO es capaz de generar vídeos a resolución 1080p (Full-HD) de hasta un minuto de duración, hiperrealistas y con continuidad. Algo muy parecido a lo que hemos visto con Sora de OpenAI, y también disponible de momento solo para ciertas personas creativas que han seleccionado.
De mismo modo han hablado de Imagen 3, su nuevo modelo generativo de imágenes, todavía privado, que dicen que lleva esto a otro nivel también.
Además tanto los vídeos como las imágenes van a estar marcadas con etiquetas SynthID que las identificarán como sintéticas. A ver qué tal funcionan... Y es que este tipo de herramientas en malas manos pueden ser terriblemente perniciosas, pero tarde o temprano van a llegar a todos y veremos qué pasa.
Búsquedas de Google
Otra gran novedad relacionada con todo esto es que la búsqueda de Google apoyada en LLMs deja de ser un experimento para lanzarse de verdad. Al menos en EEUU, que desde hoy ya pueden usarla. Los demás lo tendremos pronto.
Esto es una noticia con mucho más impacto del que pueda parecer. Básicamente lo llevo diciendo como desde hace 2 años o así, pero el SEO y por lo tanto la Web como la conocemos va a cambiar por completo. Aunque posicionarse seguirá siendo importante porque los resultados más importante se usarán para mostrar respuestas a los usuarios ¿quién diablos va a pulsar en tu enlace si la IA le da ya la respuesta exacta a lo que estaba buscando? Pues nadie, efectivamente. Esto va a hacer que los que nos dedicamos a crear contenidos acabaremos alimentando a la IA pero sin obtener los beneficios del tráfico cualificado. Y esto va a provocar que los modelos de negocio de muchas páginas y portales cambien por completo, con lo que ello implicará para la Web en general.
De hecho, en nuestro sector les llevamos la delantera a los demás y lo hemos estado experimentando ya antes que nadie desde hace un año y pico. Y si no me crees, piensa en cuántas búsquedas hacías antes para buscar ayuda a la hora de programar y cuántas haces ahora porque usas chatGPT, GitHub Copilot o cualquier herramienta similar. Y si me dices que haces las mismas, sinceramente, algo estás haciendo mal.
En fin, que esto no sabemos aún las implicaciones que va a tener, pero van a ser muy importantes sin duda.
Ha habido muchos otros anuncios en el evento, aunque ya menos relacionados con el desarrollo y más con las herramientas de IA generativa para usuario final, como Gemini para Google Workspace o las mejoras de IA de Android.
Puedes leer un resumen de todas las novedades o ver el evento completo en YouTube.
Como digo siempre, pero se sigue cumpliendo, estos próximos meses van a ser alucinantes con las cosas que veremos. Los avances son tan rápidos que desde principios de abril ya he tenido que actualizar 4 veces el módulo de LLMs de nuestro Máster de Machine Learning y Ciencia de Datos (del que me encargo yo mismo).
Mola mucho estar en esto. Es como los primeros días de la electricidad o algo así.
Seguiré informando. ¡Hasta el próximo!