(圖/路透社)
繼發表依據一段文字描述可自動生成60秒影片的「Sora」殺手級 AI 模型後,OpenAI 日前首次公開旗下歷經近2年開發的「Voice Engine」AI聲音模型新技術並展示最新初步測試成果,訴求僅需上傳錄製一段15秒的真人音檔樣本,就能透過AI模型自動生成與該真人音檔樣本極為相似的AI合成語音,不但能聽到與原始音檔樣本相近的口吻聲調,並且還可生成不同的語言版本,包括:英文、西班牙文、中文、日本等多國語言。
OpenAI 表示,目前針對語音生成技術所開發的「Voice Engine」AI模型,初期現階段僅向少部分約十人左右的開發者釋出,尚未正式對公眾開放使用。適合應用的情境像是:教學影片的旁白、或為影片提供多國語言翻譯音檔等。
為防範該語音AI模型遭不當濫用、散播不實資訊等資安風險(如假冒某某人的詐騙電話),將採取嚴格安全管控措施。OpenAI 指出,參與該AI模式測試計畫人員,需取得當事人提供聲音檔樣本的授權同意;此外,依據「Voice Engine」AI模型所生成的合成語音檔案,必需明確標註是出自AI生成、非真人發聲。另,OpenAI 也為「Voice Engine」AI模型所生成的語音合成檔案,加入具浮水印防止篡改的安全機制。
你可能也想看