Inteligencia artificial

OpenAI dotará a ChatGPT de capacidades de voz e imagen

OpenAI ha anunciado que su asistente de inteligencia artificial generativa, ChatGPT, pronto contará con funciones de voz e imagen, en una clara señal de que la compañía busca expandir las capacidades de su popular chatbot más allá del texto.

Desde su lanzamiento hace aproximadamente nueve meses, ChatGPT ha ganado notoriedad por su habilidad para generar textos de alta calidad, como ensayos y resúmenes, a partir de simples comandos de texto. Sin embargo, la próxima actualización permitirá a los usuarios interactuar con el asistente a través de comandos de voz.

Este anuncio coincide con la decisión de Amazon de invertir hasta 4 mil millones de dólares en Anthropic, un competidor de OpenAI. Este movimiento es parte de una lucha más amplia en el ámbito de la inteligencia artificial generativa, que también involucra a gigantes tecnológicos como Google, Meta y Microsoft.

Nuevas Funcionalidades

OpenAI está llevando la inteligencia artificial generativa a un nuevo nivel al combinar asistentes de voz con modelos de lenguaje de gran escala. Los usuarios podrán, por ejemplo, pedir a ChatGPT que genere una historia para dormir en tiempo real, utilizando comandos de voz para guiar la trama. Además, el chatbot podrá responder preguntas en forma de voz.

En una adición más, los usuarios podrán realizar consultas utilizando imágenes. Podrán subir una foto y pedir a ChatGPT que la identifique o que ofrezca instrucciones para alcanzar un objetivo específico. Estas nuevas capacidades están impulsadas por un modelo de conversión de texto a voz que puede generar voces humanas a partir de texto y unos pocos segundos de muestra de voz.

Colaboraciones y Precauciones

Spotify se ha unido como socio de lanzamiento, ofreciendo una nueva función que permitirá a los podcasters traducir sus programas a otros idiomas manteniendo su voz original. OpenAI ha colaborado específicamente con podcasters conocidos como Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons y Steven Bartlett para el lanzamiento.

La empresa también ha mostrado cautela ante los posibles riesgos asociados con la tecnología, como el uso indebido para suplantar identidades o cometer fraudes.

Disponibilidad

Las nuevas funciones se implementarán inicialmente para los suscriptores de pago de los planes Plus y Enterprise en las próximas dos semanas. Para activar las capacidades de voz, los usuarios deberán acceder al menú de configuración de la aplicación y optar por las conversaciones de voz. La función de voz estará disponible inicialmente solo en las aplicaciones ChatGPT para Android e iOS, mientras que la búsqueda de imágenes se implementará en todas las plataformas.

Con estas adiciones, OpenAI busca no solo mejorar la interacción con ChatGPT, sino también abrir nuevas posibilidades en el ámbito de la inteligencia artificial generativa.


Descubre más desde TecnoAp21

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Deja un comentario