OpenAI lanza nuevas funciones de inteligencia de voz en su API

OpenAI anunció el jueves el lanzamiento de nuevas funciones de inteligencia artificial de voz para su API, diseñadas para permitir a los desarrolladores crear aplicaciones que puedan conversar, transcribir y traducir en tiempo real. Las capacidades de voz de OpenAI incluyen tres nuevos modelos que prometen transformar la forma en que las empresas interactúan con sus usuarios a través de interfaces de audio avanzadas.

La compañía presentó GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper como parte de su Realtime API. Estas herramientas están disponibles desde esta semana para desarrolladores que buscan integrar funcionalidades de voz más sofisticadas en sus plataformas y servicios.

GPT-Realtime-2 Incorpora Razonamiento Avanzado

El modelo GPT-Realtime-2 representa una evolución significativa respecto a su predecesor GPT-Realtime-1.5. Según OpenAI, este nuevo modelo de voz incorpora capacidades de razonamiento de clase GPT-5, lo que le permite manejar solicitudes más complejas de los usuarios con mayor precisión.

La simulación vocal realista del sistema permite conversaciones naturales que van más allá de simples respuestas de llamada y respuesta. Esta mejora en las capacidades de voz de OpenAI busca crear interfaces que puedan ejecutar tareas mientras la conversación se desarrolla, no solo responder preguntas básicas.

Traducción y Transcripción en Tiempo Real

GPT-Realtime-Translate ofrece servicios de traducción simultánea que, según la compañía, mantienen el ritmo conversacional del usuario. El sistema comprende más de 70 idiomas de entrada y puede transmitir respuestas en 13 idiomas diferentes, facilitando la comunicación multilingüe instantánea.

Adicionalmente, GPT-Realtime-Whisper proporciona capacidades de transcripción en vivo, convirtiendo voz a texto mientras ocurren las interacciones. Esta función complementa las otras herramientas para ofrecer una suite completa de procesamiento de audio en tiempo real.

“Juntos, los modelos que estamos lanzando mueven el audio en tiempo real desde simples llamadas y respuestas hacia interfaces de voz que realmente pueden hacer trabajo: escuchar, razonar, traducir, transcribir y tomar acción mientras una conversación se desarrolla”, indicó la compañía en su anuncio.

Aplicaciones Empresariales y Medidas de Seguridad

Las empresas que buscan expandir sus capacidades de servicio al cliente representan el objetivo más evidente para estas herramientas. Sin embargo, OpenAI también señala que sus nuevas funciones tienen aplicaciones en educación, medios de comunicación, eventos y plataformas de creadores de contenido, entre otros sectores.

La compañía reconoció los posibles riesgos de mal uso y afirmó haber implementado salvaguardas para prevenir abusos. Las conversaciones pueden detenerse automáticamente si el sistema detecta violaciones a las directrices de contenido dañino, según explicó OpenAI, con el objetivo de evitar spam, fraude u otras formas de abuso en línea.

Modelo de Facturación y Disponibilidad

Todos los nuevos modelos de voz están incluidos en la Realtime API de OpenAI. La estructura de precios varía según el servicio: mientras que Translate y Whisper se facturan por minuto de uso, GPT-Realtime-2 se cobra por consumo de tokens, siguiendo el modelo tradicional de la compañía.

Los desarrolladores ya pueden acceder a estas capacidades para comenzar a integrarlas en sus aplicaciones y servicios. El impacto de estas herramientas en el mercado de asistentes de voz e interfaces conversacionales dependerá de la adopción por parte de empresas y la efectividad de las medidas de seguridad implementadas para prevenir usos indebidos de la tecnología.

What's Hot

Rally del cobre pierde impulso ante los aranceles de cobre de Trump

Cathie Wood ejecuta la venta de ARK en ACHR por cerca de $13 millones

Dell Technologies lidera acciones de crecimiento junto a Sandisk y Adtran

GPT-Realtime-2 Incorpora Razonamiento Avanzado

Traducción y Transcripción en Tiempo Real

Aplicaciones Empresariales y Medidas de Seguridad

Modelo de Facturación y Disponibilidad

GM despide a cientos de trabajadores de TI para contratar personal con mayores competencias en inteligencia artificial

Impulsada por un repunte en inteligencia artificial, Robinhood prepara la salida a bolsa de su segunda empresa de inversión minorista

Bravo crea microdramatizados sin guion para la aplicación Peacock

La empresa de tecnología de defensa Helsing respaldada por Daniel Ek recauda 1.200 millones de dólares con una valoración de 18.000 millones

El Wordle de NYT se convertirá en un programa de juegos televisivo

Los principales fabricantes de Corea respaldan a Config, la TSMC de datos robóticos

What's Hot

OpenAI lanza nuevas funciones de inteligencia de voz en su API

GPT-Realtime-2 Incorpora Razonamiento Avanzado

Traducción y Transcripción en Tiempo Real

Aplicaciones Empresariales y Medidas de Seguridad

Modelo de Facturación y Disponibilidad

Sigue leyendo