OpenAI anunció el jueves el lanzamiento de nuevas funciones de inteligencia artificial de voz para su API, diseñadas para permitir a los desarrolladores crear aplicaciones que puedan conversar, transcribir y traducir en tiempo real. Las capacidades de voz de OpenAI incluyen tres nuevos modelos que prometen transformar la forma en que las empresas interactúan con sus usuarios a través de interfaces de audio avanzadas.

La compañía presentó GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper como parte de su Realtime API. Estas herramientas están disponibles desde esta semana para desarrolladores que buscan integrar funcionalidades de voz más sofisticadas en sus plataformas y servicios.

GPT-Realtime-2 Incorpora Razonamiento Avanzado

El modelo GPT-Realtime-2 representa una evolución significativa respecto a su predecesor GPT-Realtime-1.5. Según OpenAI, este nuevo modelo de voz incorpora capacidades de razonamiento de clase GPT-5, lo que le permite manejar solicitudes más complejas de los usuarios con mayor precisión.

La simulación vocal realista del sistema permite conversaciones naturales que van más allá de simples respuestas de llamada y respuesta. Esta mejora en las capacidades de voz de OpenAI busca crear interfaces que puedan ejecutar tareas mientras la conversación se desarrolla, no solo responder preguntas básicas.

Traducción y Transcripción en Tiempo Real

GPT-Realtime-Translate ofrece servicios de traducción simultánea que, según la compañía, mantienen el ritmo conversacional del usuario. El sistema comprende más de 70 idiomas de entrada y puede transmitir respuestas en 13 idiomas diferentes, facilitando la comunicación multilingüe instantánea.

Adicionalmente, GPT-Realtime-Whisper proporciona capacidades de transcripción en vivo, convirtiendo voz a texto mientras ocurren las interacciones. Esta función complementa las otras herramientas para ofrecer una suite completa de procesamiento de audio en tiempo real.

“Juntos, los modelos que estamos lanzando mueven el audio en tiempo real desde simples llamadas y respuestas hacia interfaces de voz que realmente pueden hacer trabajo: escuchar, razonar, traducir, transcribir y tomar acción mientras una conversación se desarrolla”, indicó la compañía en su anuncio.

Aplicaciones Empresariales y Medidas de Seguridad

Las empresas que buscan expandir sus capacidades de servicio al cliente representan el objetivo más evidente para estas herramientas. Sin embargo, OpenAI también señala que sus nuevas funciones tienen aplicaciones en educación, medios de comunicación, eventos y plataformas de creadores de contenido, entre otros sectores.

La compañía reconoció los posibles riesgos de mal uso y afirmó haber implementado salvaguardas para prevenir abusos. Las conversaciones pueden detenerse automáticamente si el sistema detecta violaciones a las directrices de contenido dañino, según explicó OpenAI, con el objetivo de evitar spam, fraude u otras formas de abuso en línea.

Modelo de Facturación y Disponibilidad

Todos los nuevos modelos de voz están incluidos en la Realtime API de OpenAI. La estructura de precios varía según el servicio: mientras que Translate y Whisper se facturan por minuto de uso, GPT-Realtime-2 se cobra por consumo de tokens, siguiendo el modelo tradicional de la compañía.

Los desarrolladores ya pueden acceder a estas capacidades para comenzar a integrarlas en sus aplicaciones y servicios. El impacto de estas herramientas en el mercado de asistentes de voz e interfaces conversacionales dependerá de la adopción por parte de empresas y la efectividad de las medidas de seguridad implementadas para prevenir usos indebidos de la tecnología.

Compartir.

Fernando Parra Editor Jefe en Social Underground. Periodista especializado en economía digital y tecnología financiera con base en Madrid. Su trabajo se centra en analizar el impacto de los neobancos, la regulación europea y el ecosistema cripto en España. Apasionado por traducir las finanzas complejas en noticias accesibles.

Deja una respuesta