OpenAI 亮相 AI語音模型新技術！15秒錄音檔可生成多國語言合成人聲

2024/03/31 21:07 文／記者劉惠琴

（圖／路透社）（圖／路透社）

繼發表依據一段文字描述可自動生成60秒影片的「Sora」殺手級 AI 模型後，OpenAI 日前首次公開旗下歷經近2年開發的「Voice Engine」AI聲音模型新技術並展示最新初步測試成果，訴求僅需上傳錄製一段15秒的真人音檔樣本，就能透過AI模型自動生成與該真人音檔樣本極為相似的AI合成語音，不但能聽到與原始音檔樣本相近的口吻聲調，並且還可生成不同的語言版本，包括：英文、西班牙文、中文、日本等多國語言。

OpenAI 表示，目前針對語音生成技術所開發的「Voice Engine」AI模型，初期現階段僅向少部分約十人左右的開發者釋出，尚未正式對公眾開放使用。適合應用的情境像是：教學影片的旁白、或為影片提供多國語言翻譯音檔等。

為防範該語音AI模型遭不當濫用、散播不實資訊等資安風險（如假冒某某人的詐騙電話），將採取嚴格安全管控措施。OpenAI 指出，參與該AI模式測試計畫人員，需取得當事人提供聲音檔樣本的授權同意；此外，依據「Voice Engine」AI模型所生成的合成語音檔案，必需明確標註是出自AI生成、非真人發聲。另，OpenAI 也為「Voice Engine」AI模型所生成的語音合成檔案，加入具浮水印防止篡改的安全機制。

你可能也想看

OpenAI 殺手級 AI 模型確定今年上線！一下指令就能生成影片

不用抽不用搶現在用APP看新聞保證天天中獎　點我下載APP　按我看活動辦法