Skip to content Skip to sidebar Skip to footer

GPT-4o llega con nuevas capacidades de audio, visión y texto en tiempo real

La letra “o” que incluye el nuevo modelo de inteligencia artificial de OpenAI viene dada por el prefijo “omni”, que significa totalidad. Y esa es la innovación que trae el GPT-4o, el cual puede imitar las cadencias humanas en sus respuestas verbales e incluso intentar detectar los estados de ánimo de las personas.

Con el objetivo de abarcar “todo”, la innovadora propuesta funciona más rápido que las versiones anteriores y puede razonar a través de texto, audio y video en tiempo real. Y, sobre todo, impulsará el chatbot ChatGPT y estará disponible para los usuarios, incluidos aquellos que usan la versión gratuita, en las próximas semanas.

¿Qué es lo nuevo?

GPT-4o puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, lo que es similar al tiempo de respuesta humano en una conversación. Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas no ingleses. Específicamente, mejora notablemente en comprensión de visión y audio en comparación con los modelos existentes.

¿Cómo lo hace?

Con GPT-4o se emplea un solo modelo nuevo de principio a fin a través de texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal.

Antes se podía usar el Modo de Voz para hablar con ChatGPT con latencias de 2,8 segundos (GPT-3.5) y 5,4 segundos (GPT-4) en promedio. Para lograr esto, el Modo de Voz utiliza una canalización de tres modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma texto y genera texto, y un tercer modelo simple convierte ese texto nuevamente a audio. Este proceso significa que se pierde mucha información: no puede observar directamente el tono, los múltiples interlocutores o los ruidos de fondo, y no puede producir risas, canto o expresar emoción.

Disponibilidad del modelo

Las capacidades de texto e imagen de GPT-4o han comenzado a implementarse en ChatGPT desde la fecha de lanzamiento. OpenAI ha puesto a disposición GPT-4o en el nivel gratuito y para usuarios Plus con límites de mensajes hasta 5 veces mayores. Próximamente, se lanzará una nueva versión de Voice Mode con GPT-4o en alpha dentro de ChatGPT Plus.

Conoce más de GPT-4o en estos videos:

¿En qué nos ayudará?

Al implementar más inteligencia y herramientas avanzadas en ChatGPT de forma gratuita, OpenAI busca poner herramientas de inteligencia artificial avanzadas a disposición de tantas personas como sea posible.

Según las cifras que ha publicado la compañía, más de cien millones de personas usan ChatGPT cada semana.

Al usar GPT-4o, los usuarios gratuitos de ChatGPT ahora tendrán acceso a funciones como:

  • Experiencia de inteligencia de nivel GPT-4.
  • Obtener respuestas del modelo y de la web.
  • Analizar datos y crear gráficos.
  • Conversar sobre fotos que tomes.
  • Subir archivos para ayuda en resúmenes, escritura o análisis.
  • Descubrir y usar GPT y la Tienda GPT.
  • Construir una experiencia más útil con Memory.

(Lee aquí: Las gafas inteligentes Nimo, una minicomputadora en la cabeza del usuario)

Deja tu comentario