OpenAI, la innovadora empresa detrás del popular chatbot con inteligencia artificial generativa, ChatGPT, sorprendió al mundo este lunes con el anuncio de una versión mejorada de su herramienta que es capaz de «ver, oír y hablar» en voz alta con los usuarios. Hasta ahora, la interacción con las diversas versiones de ChatGPT se limitaba a conversaciones escritas, pero dentro de «dos semanas», los usuarios de la versión de pago podrán mantener conversaciones en voz alta, escuchar las respuestas generadas por la máquina, y hasta enviar imágenes, fotografías, capturas de pantalla y documentos para obtener respuestas específicas.
Los usuarios que prefieren la versión gratuita de esta herramienta no se quedarán atrás, ya que OpenAI planea implementar estas nuevas funcionalidades «poco después» del lanzamiento para los usuarios de pago, según la compañía.
En su comunicado, OpenAI destacó que «la voz y la imagen te brindan más formas de usar ChatGPT en tu vida. Cuando estés en casa, saca fotografías de tu refrigerador y despensa para saber qué hay para cenar (y haz preguntas para obtener una receta paso a paso)». Además, la empresa ilustró cómo se podría utilizar esta herramienta de voz para «contar un cuento o resolver un debate».
En este momento, el asistente de voz de OpenAI, que guarda similitudes con Amazon’s Alexa y Apple’s Siri, estará disponible en dispositivos iOS y Android, aunque no en PC.
Los usuarios podrán elegir entre cinco voces distintas, siendo la voz predeterminada una que emula a una mujer joven y aparentemente de origen caucásico, como es común en este tipo de tecnologías.
El proceso detrás de esta novedosa función de voz implica el uso de Whisper, otra herramienta de OpenAI que utiliza la inteligencia artificial para transcribir audio. A partir de la voz del usuario, Whisper convierte el habla en texto, y la compañía utiliza su nuevo modelo de conversión de texto a voz para generar respuestas con voz sintética.
Sin embargo, OpenAI no pasó por alto los posibles riesgos que estas nuevas capacidades conllevan, incluyendo la posibilidad de que actores maliciosos se hagan pasar por figuras públicas o cometan fraude.
En un anuncio adicional, OpenAI reveló que la plataforma de música Spotify está aprovechando el potencial de esta tecnología para traducir algunos de sus podcasts a «idiomas adicionales, manteniendo las voces originales de los presentadores e invitados».
En resumen, la revolución en la interacción con inteligencia artificial ha llegado, y OpenAI lidera el camino con su ChatGPT mejorado, brindando a los usuarios la capacidad de ver, oír y hablar con esta avanzada IA como nunca antes.