OpenAI impulsa los modelos de audio en tiempo real con la familia GPT‑Realtime

Última actualización: mayo 10, 2026
Autor: ForoPC
  • OpenAI lanza tres modelos de audio en tiempo real: GPT‑Realtime‑2, Realtime‑Translate y Realtime‑Whisper.
  • Los sistemas pueden razonar, traducir y transcribir mientras la persona habla, manteniendo el contexto de la conversación.
  • La API Realtime está pensada para que desarrolladores creen agentes de voz más naturales y capaces de ejecutar tareas durante el diálogo.
  • Los modelos abren oportunidades en atención al cliente, educación, eventos en directo y productividad empresarial en Europa y otros mercados.

Modelos de audio en tiempo real

La voz está dejando de ser un simple complemento para convertirse en una interfaz principal con el software y los servicios digitales. OpenAI ha dado un paso importante en esta dirección con el lanzamiento de tres modelos de audio en tiempo real que permiten mantener conversaciones naturales mientras la inteligencia artificial razona, traduce, transcribe y genera resúmenes de audio con IA y ejecuta acciones en segundo plano.

Estos avances se agrupan bajo la familia GPT‑Realtime y apuntan a un objetivo claro: pasar del clásico esquema de pregunta‑respuesta a agentes de voz capaces de seguir el hilo de una charla, entender el contexto, reaccionar ante interrupciones y conectarse con herramientas externas como calendarios, CRM o paneles empresariales. Un movimiento con implicaciones directas en sectores clave de España y Europa, como la atención al cliente, la educación o la sanidad.

Qué es la familia GPT‑Realtime y por qué apunta al audio en tiempo real

OpenAI ha presentado oficialmente tres modelos de audio que operan en tiempo real: GPT‑Realtime‑2, GPT‑Realtime‑Translate y GPT‑Realtime‑Whisper. Todos ellos están disponibles a través de la nueva Realtime API y del entorno de pruebas Playground, donde los desarrolladores pueden experimentar sin necesidad de escribir código desde cero.

resúmenes de audio con IA en Google Docs
Related article:
Resúmenes de audio con IA en Google Docs: así funciona la nueva herramienta de Gemini

La idea central es que estos sistemas escuchan mientras la persona habla y responden sin necesidad de esperar a que termine la frase completa. En lugar de limitarse a transcribir o contestar de forma aislada, son capaces de mantener una conversación prolongada, recordar lo que se ha dicho hace varios minutos e ir tomando decisiones mientras la charla continúa.

Según ha explicado la compañía, estos modelos convierten el audio en tiempo real en una interfaz capaz de escuchar, razonar, traducir, transcribir y actuar. Esto supone una diferencia notable frente a los asistentes tradicionales, que suelen reiniciarse en cada turno de voz y ofrecen interacciones más fragmentadas.

Para las empresas europeas, incluidas las españolas, esta evolución abre la puerta a nuevos tipos de agentes conversacionales: desde bots de soporte multilingüe que entienden matices emocionales, hasta asistentes internos que documentan reuniones o actualizan sistemas corporativos sin que nadie tenga que teclear nada.

IA de voz en tiempo real

GPT‑Realtime‑2: razonamiento avanzado y agentes de voz que actúan

Dentro del paquete, GPT‑Realtime‑2 se sitúa como el modelo más ambicioso. OpenAI lo describe como un sistema con capacidades de razonamiento comparables a GPT‑5, adaptado específicamente a interacciones de voz en directo. Su función no es solo contestar, sino gestionar peticiones complejas mientras mantiene una conversación fluida.

En las demostraciones públicas, este modelo se presentó como un asistente personal capaz de consultar un calendario, identificar reuniones próximas, mencionar nombres y cargos y, al mismo tiempo, seguir conversando sin dar la sensación de parón o bloqueo. El sistema puede manejar interrupciones, correcciones a mitad de frase y cambios de tema sin perder el hilo.

  OpenClaw: el agente de inteligencia artificial que controla tu ordenador

Un aspecto llamativo es que GPT‑Realtime‑2 incorpora frases de transición naturales como “déjame comprobar eso” o “un momento”, mientras realiza consultas a herramientas externas. El objetivo es evitar esos silencios incómodos en los que parece que el asistente ha dejado de funcionar, algo muy habitual en sistemas de voz menos avanzados.

El modelo puede además invocar varias herramientas en paralelo y anunciar en voz alta lo que está haciendo con mensajes del tipo “revisando tu calendario” o “buscando esa información ahora”. Esta transparencia ayuda a la persona usuaria a entender qué está pasando en segundo plano, algo importante en contextos corporativos donde se manejan datos sensibles.

Otro punto clave es la ventana de contexto de GPT‑Realtime‑2, que llega hasta los 128.000 tokens. Esto permite sostener conversaciones largas —por ejemplo, durante una reunión completa o una sesión de soporte técnico— sin que el sistema olvide lo que se comentó al inicio. Para equipos de ventas, recursos humanos o atención al cliente en empresas españolas, supone poder mantener un diálogo continuo sin tener que repetir información cada pocos minutos.

Traducción simultánea con GPT‑Realtime‑Translate en más de 70 idiomas

El segundo modelo, GPT‑Realtime‑Translate, está diseñado para traducir voz en tiempo real, siguiendo el ritmo natural del hablante. Admite más de 70 idiomas de entrada y 13 idiomas de salida, y ha sido concebido para situaciones en las que dos o más personas necesitan comunicarse sin compartir lengua común.

Durante las demostraciones, se mostró cómo el sistema empieza a producir la traducción antes de que la persona termine la frase, pero esperando elementos clave —como el verbo en lenguas donde aparece al final— para que la frase tenga sentido completo. Esto busca que la traducción suene más cercana a una conversación entre personas, y no a una sucesión de fragmentos cortados.

Otro detalle relevante es la flexibilidad idiomática: el modelo fue capaz de cambiar de idioma sobre la marcha cuando la persona que hablaba pasaba del francés al alemán, manteniendo al mismo tiempo términos técnicos y nombres propios sin deformarlos. Expresiones específicas de dominio, como referencias a productos o tecnologías, se respetan para evitar malentendidos.

OpenAI sitúa este modelo en el centro de casos de uso como atención al cliente multilingüe, plataformas educativas en línea, eventos y retransmisiones, además de medios de comunicación que necesiten traducción simultánea. En Europa, donde la diversidad lingüística es la norma, la posibilidad de integrar este tipo de traducción en webs, call centers o apps móviles puede suponer un salto importante.

Operadores como la firma europea de telecomunicaciones Deutsche Telekom ya están probando GPT‑Realtime‑Translate para permitir que sus clientes hablen en el idioma con el que se sientan más cómodos, mientras el sistema gestiona el intercambio con agentes o servicios en otra lengua.

GPT‑Realtime‑Whisper: transcripción instantánea y generación de notas

El tercer componente de la familia, GPT‑Realtime‑Whisper, se centra en la conversión de voz a texto de baja latencia. A diferencia de muchos sistemas actuales, que esperan a que el usuario termine de hablar para ofrecer una transcripción completa, este modelo va escribiendo el contenido a medida que la persona se expresa.

Esta forma de operar resulta especialmente útil en presentaciones en directo, reuniones de trabajo, videollamadas o retransmisiones, donde los subtítulos o notas suelen llegar con cierto retraso. Con Realtime‑Whisper, la transcripción acompaña casi en tiempo real, lo que mejora la comprensión y ayuda a quienes no pueden seguir el audio con claridad, y se beneficia de modelos como Sam Audio que separan fuentes sonoras.

  València instalará cámaras en zonas turísticas para crear mapas de calor y gestionar mejor el flujo de visitantes

Más allá del subtitulado, OpenAI plantea este modelo como base para generar notas automáticas, resúmenes de reuniones y actualizaciones de flujos de trabajo mientras la conversación sigue en marcha. En contextos empresariales europeos, esto podría traducirse en actas automáticas de comités, informes de llamadas comerciales o documentación de consultas médicas sin necesidad de tomar apuntes manualmente.

La baja latencia del sistema también es clave en aplicaciones de accesibilidad, por ejemplo para personas con dificultades auditivas que necesitan una transcripción inmediata para seguir una conferencia, una clase universitaria o una visita guiada en un museo.

Cómo cambia la interacción: voz como interfaz operativa

Más allá de las funciones específicas de cada modelo, OpenAI insiste en que la gran novedad es la capacidad de mantener el contexto y actuar mientras se conversa. Los agentes construidos sobre la API Realtime no se limitan a oír y contestar, sino que pueden ejecutar acciones reales en sistemas conectados.

En las demostraciones, por ejemplo, se vio cómo un asistente era capaz de escuchar una reunión, extraer los puntos clave y actualizar automáticamente un CRM con el resumen del encuentro y los próximos pasos, similar a agentes como OpenClaw. Antes de realizar la acción, el sistema explicaba en voz alta lo que iba a hacer, para evitar sorpresas y mantener a la persona usuaria informada.

También se puso de relieve la capacidad de estos agentes para permanecer en segundo plano sin interrumpir. El asistente podía seguir escuchando sin hablar hasta recibir una frase concreta de activación, momento en el que retomaba la conversación. Este comportamiento se acerca más a cómo interactúan dos personas, donde alguien puede estar atento sin participar todo el tiempo.

Para empresas y desarrolladores europeos, esto abre posibilidades como asistentes internos que documenten llamadas, bots que gestionen reservas habladas, o sistemas que integren voz con paneles de control industriales. En lugar de navegar por menús y formularios, bastaría con dar instrucciones de viva voz para que la IA realice tareas concretas sobre el software ya existente.

La propia OpenAI resume este cambio como un paso desde “un sistema de llamada y respuesta” hacia “interfaces de voz que realmente pueden realizar tareas”: escuchar, razonar, traducir, transcribir y actuar a medida que la conversación se desarrolla.

Casos de uso en España y Europa: de la atención al cliente a la educación

En un entorno como el europeo, donde conviven numerosas lenguas oficiales y regionales, los modelos de audio en tiempo real de OpenAI encajan especialmente bien en escenarios multilingües cotidianos. La traducción simultánea y la transcripción instantánea pueden marcar diferencias en múltiples sectores.

En atención al cliente, por ejemplo, las operadoras de telecomunicaciones, bancos o plataformas de comercio electrónico podrían desplegar agentes de voz que atiendan llamadas en diferentes idiomas, comprendan el estado de ánimo de la persona que llama y adapten su tono en función de la situación. GPT‑Realtime‑2 está diseñado para responder con más calma cuando detecta frustración y para ser más directo cuando solo necesita confirmar datos.

  Meta y AMD sellan una gran alianza estratégica en chips de IA

En el ámbito de la educación, universidades y centros de formación online de España y otros países europeos podrían emplear GPT‑Realtime‑Translate para impartir clases o seminarios a estudiantes que no comparten idioma nativo, manteniendo las explicaciones en tiempo real sin detener la sesión. La transcripción de Realtime‑Whisper añadiría un apoyo extra para repasar contenidos o mejorar la accesibilidad.

Otro campo con potencial es el de eventos y medios de comunicación. Congresos internacionales, ferias tecnológicas o ruedas de prensa seguirían su curso habitual, mientras los asistentes reciben traducción de audio en directo en sus auriculares o subtítulos casi instantáneos en pantalla. Las redacciones podrían generar borradores de noticias a partir de discursos o entrevistas sin necesidad de transcribir manualmente horas de grabación.

En sanidad y servicios públicos, estos modelos podrían servir de apoyo para traducir entre personal médico y pacientes que hablan otros idiomas, o para generar notas de consulta sin interrumpir la interacción clínica. Aunque su uso en este ámbito exige un cuidado especial en materia de privacidad y cumplimiento normativo europeo, la tecnología apunta a reducir barreras de comunicación.

Disponibilidad, precios y enfoque para desarrolladores

Los tres modelos —GPT‑Realtime‑2, GPT‑Realtime‑Translate y GPT‑Realtime‑Whisper— están ya disponibles en la Realtime API de OpenAI. Para quienes quieran experimentar sin programar, la compañía ofrece acceso desde el Playground, una especie de laboratorio online en el que se pueden probar las capacidades de los modelos con ejemplos prácticos.

En cuanto a la integración en productos reales, OpenAI propone usar recursos como Codex y las guías de desarrolladores para añadir estos modelos a aplicaciones existentes o arrancar proyectos desde cero. La empresa también ha resaltado la importancia de los “preámbulos”, es decir, instrucciones iniciales que ayudan al modelo a explicar lo que está haciendo y a manejar mejor los tiempos de espera cuando interactúa con herramientas externas.

En el plano económico, GPT‑Realtime‑2 se ofrece con un precio de partida de 32 dólares por cada millón de tokens de entrada de audio y 64 dólares por cada millón de tokens de salida. Por su parte, GPT‑Realtime‑Translate cuesta 0,034 dólares por minuto de uso y GPT‑Realtime‑Whisper, 0,017 dólares por minuto, según la información facilitada por la compañía.

OpenAI asegura que la API incluye capas de seguridad para detener conversaciones cuando se detecta contenido que vulnera sus políticas de uso. Este punto es especialmente sensible en Europa, donde la regulación sobre inteligencia artificial y protección de datos es cada vez más estricta y donde los proveedores tecnológicos deben demostrar mecanismos de control y supervisión adecuados.

Con estos lanzamientos, OpenAI refuerza su apuesta por los modelos de audio en tiempo real como pieza central de la próxima generación de interfaces. La combinación de razonamiento avanzado, traducción simultánea y transcripción inmediata, junto con la capacidad de actuar sobre sistemas externos, sitúa a la voz como una capa operativa sobre el software que ya utilizan empresas y organizaciones. Si las pruebas actuales con compañías como Deutsche Telekom y otras plataformas dan buen resultado, es previsible que en los próximos meses veamos más aplicaciones europeas —incluidas españolas— integrando estas funciones en servicios cotidianos, desde call centers hasta herramientas de productividad.