Hardware & Software

OpenAI presenta el modelo GPT-4o: una revolución en la interacción entre humanos y máquinas

Créditos: TecnoAp21

OpenAI ha anunciado el lanzamiento de su nuevo modelo insignia de inteligencia artificial generativa, el GPT-4o, que se implementará de manera «iterativa» en los productos de la compañía tanto para desarrolladores como para consumidores durante las próximas semanas.

La «o» en GPT-4o significa «omnimodel», indicando su capacidad para trabajar con texto, visión y audio. El GPT-4o no solo mantiene la inteligencia de nivel GPT-4, sino que también amplía sus capacidades en el procesamiento de texto y visión, añadiendo además la modalidad de audio. «GPT-4o razona a través de la voz, el texto y la visión», afirmó Muri Murati, CTO de OpenAI, durante una presentación en las oficinas de OpenAI. «Esto es increíblemente importante porque estamos mirando hacia el futuro de la interacción entre nosotros y las máquinas».

El modelo anterior de OpenAI, GPT-4, ya integraba el entrenamiento tanto en imágenes como en texto, y podía analizar imágenes y textos para realizar tareas como extraer texto de imágenes o describir el contenido de las mismas. Sin embargo, GPT-4o introduce el habla en esta mezcla.

Mejoras en la experiencia de ChatGPT.

GPT-4o mejora significativamente la experiencia con ChatGPT — el chatbot impulsado por IA de OpenAI que se ha vuelto viral. Aunque ChatGPT ya ofrecía un modo de voz que transcribe texto utilizando un modelo de texto a voz, GPT-4o potencia esta funcionalidad, permitiendo a los usuarios interactuar con ChatGPT más como con un asistente. Por ejemplo, los usuarios pueden hacer preguntas a ChatGPT y interrumpirlo mientras responde. El modelo ofrece una respuesta «en tiempo real», dice OpenAI, e incluso puede captar la emoción en la voz del usuario y generar voz en «una variedad de estilos emotivos diferentes».

Capacidad de visión mejorada.

GPT-4o también mejora las capacidades de visión de ChatGPT. Dada una foto —o una pantalla de ordenador— ChatGPT ahora puede responder rápidamente preguntas relacionadas, desde «¿Qué está pasando en este código de software?» hasta «¿Qué marca de camisa lleva esta persona?»

Accesibilidad y multilingüismo.

GPT-4o es más multilingüe, con un rendimiento mejorado en 50 idiomas diferentes. En la API de OpenAI, GPT-4o es dos veces más rápido que GPT-4 (específicamente GPT-4 Turbo), la mitad de costoso y tiene límites de tasa más altos.

Además, OpenAI ha anunciado el lanzamiento de una versión de escritorio de ChatGPT y una interfaz de usuario renovada, prometiendo una experiencia de interacción más natural, fácil y enfocada en la colaboración con los modelos generativos.


Descubre más desde TecnoAp21

Suscríbete y recibe las últimas entradas en tu correo electrónico.

1 respuesta »

Deja un comentario