Anuncian GPT-4o: un nuevo modelo que razona en tiempo real a través del texto, el audio y la visión

Se ha presentado oficialmente GPT-4o, la última innovación en inteligencia artificial, que promete revolucionar la interacción entre humanos y computadoras. La característica principal de ‘GPT-4o’, donde ‘o’ simboliza ‘omnisciente’, radica en su capacidad para procesar cualquier combinación de texto, audio e imagen, y producir respuestas utilizando esos mismos formatos.

Con una capacidad de respuesta al audio de apenas 232 milisegundos y un promedio de 320 milisegundos, GPT-4o ofrece una experiencia de conversación similar al tiempo de respuesta humano. Además, muestra una mejora significativa al procesar texto en idiomas distintos al inglés y una notoria superioridad en la comprensión de audio y visión, todo esto a una velocidad mayor y un coste un 50% inferior.

Entre sus habilidades destacan: interactuar y cantar con armonía, preparación para entrevistas, juegos como ‘Piedra, papel o tijera’, interpretación del sarcasmo, y hasta ayudar a aprender español con tan solo señalar objetos. GPT-4o también ofrece una demostración de asistencia al cliente y un concepto innovador de ‘Reunión AI’.

Anteriormente, en modo voz, las versiones previas de GPT sufrían latencias de 2.8 segundos (GPT-3.5) y 5.4 segundos (GPT-4). Ahora, GPT-4o integra un modelo único adiestrado de principio a fin, que maneja todas las entradas y salidas a través de una sola red neuronal. Esto aumenta sustancialmente la inteligencia del modelo al poder captar tonos de voz, ruidos de fondo y expresar emociones como la risa.

En relación con la seguridad, se han incorporado mejoras, como la filtración de datos de entrenamiento y ajustes post-entrenamiento, así como nuevos sistemas de seguridad para la voz. Además, se ha evaluado GPT-4o según el Marco de Preparación de la compañía, asegurándose de que no supera un riesgo medio en categorías como ciberseguridad y autonomía de modelo.

GPT-4o también ha atravesado un exhaustivo proceso de ‘red teaming’ externo con más de 70 expertos para identificar y atender nuevos riesgos. Además, la disponibilidad inicial de GPT-4o se limitará al procesamiento de texto e imágenes, mientras que las funcionalidades de audio y vídeo se irán implementando gradualmente. Aún se están trabajando las infraestructuras técnicas para garantizar la seguridad y usabilidad de estas modalidades.

Finalmente, ya es posible obtener acceso a GPT-4o en la API como modelo de texto y visión y se espera que llegue pronto a los socios de confianza del servicio con capacidades de audio y vídeo. La implementación de GPT-4o será gradual, siendo ya disponible en la modalidad gratuita y para usuarios Plus de ChatGPT, con límites de mensajes hasta 5 veces superiores.