即時翻譯不再只是字幕工具
OpenAI 最新推出的 GPT-Realtime-Translate,可視為 Real Time Live Translation Model 的正式技術名稱之一。它不是傳統「錄完音再翻譯」工具,而是針對即時語音場景而設的串流翻譯模型,可在說話者仍然講緊嘢時,同步輸出翻譯語音及文字片段。根據 OpenAI 官方 API 文件,Realtime translation 可將 live speech 轉成 streaming audio 及 transcript output,適合即時翻譯 App、直播、會議及跨語言客服。出處連結:https://developers.openai.com/api/docs/guides/realtime-translation
支援 70+ 輸入語言
OpenAI 官方文章指出,GPT-Realtime-Translate 可把 70 多種輸入語言即時翻譯成 13 種輸出語言,並盡量跟上說話者節奏。與一般文字翻譯不同,這類模型重點是低延遲和連續輸出,適合面對面溝通、網上課堂、國際會議、旅遊協助及多語言直播。API 文件亦顯示,它會使用專用 realtime translation endpoint,並在原始音訊仍在輸入時,回傳翻譯音訊與 transcript deltas。
應用場景:客服、教育、會議
從商業角度看,Real Time Live Translation Model 最有價值的地方,是令企業可以建立「即講即譯」服務。例如客服中心可讓不同語言客戶直接通話;教育平台可為外語課堂提供即時翻譯;直播主亦可把內容同步傳給海外觀眾。Reuters 報導亦提到,GPT-Realtime-Translate 針對教育、客服等場景,並與 GPT-Realtime-2、GPT-Realtime-Whisper 一同推出,屬於 OpenAI 新一代即時語音模型。
仍要注意準確度與私隱
不過,即時翻譯模型仍不是人類傳譯員的完全替代品。口音、專有名詞、噪音環境、語境誤解及敏感資料處理,都會影響最終效果。若用於醫療、法律或正式商務場合,仍應加入人工覆核。整體而言,GPT-Realtime-Translate 代表 AI 翻譯由「文字轉換」走向「即時語音溝通」,未來有機會改變跨語言客服、會議、旅遊及直播市場。


