OpenAI hat drei neue Echtzeit-Audiomodelle vorgestellt. GPT-Realtime-2 für Gespräche zwischen Mensch und KI, GPT-Realtime Translate für Live-Übersetzung menschlicher Gespräche und GPT-Realtime Whisper für die Transkription mit geringer Latenz. GPT-Realtime-2 bietet Echtzeit-Reasoning mit GPT-5, ein größeres Kontextfenster mit 128.000 Token, anpassbare Schlussfolgerungsstufen und parallele Tool-Aufrufe.
Gemäß OpenAI klingen die Modelle natürlicher, kommen besser mit Unterbrechungen zurecht und verbessern die Benchmark-Leistung. Translate unterstützt mehr als 70 Eingabe- und 13 Ausgabesprachen. Whisper ist speziell auf Anwendungsfälle in den Bereichen Besprechungen, Streaming, Kundensupport, Medizin und Einzelhandel ausgerichtet. Die Preise bleiben unverändert und die Datenspeicherung erfolgt in der EU. Einzig das Tracing, also die Nachverfolgung von API-Aufrufen ist derzeit noch nicht EU-Data-Residency-konform.