

VibeVoice 是一個開源框架,旨在從文本生成富有表現力、長篇、多揚聲器的對話音頻,非常適合播客和對話。它克服了傳統文本轉語音 (TTS) 系統的限制,提供可擴展性、揚聲器一致性和自然的輪流。核心創新在於它使用以低幀率 (7.5 Hz) 運行的連續語音分詞器(聲學和語義),在保持音頻保真度的同時提高計算效率。VibeVoice 採用下一代令牌擴散框架,利用大型語言模型 (LLM) 進行上下文理解,並使用擴散頭進行高保真聲學細節。它支持長達 90 分鐘的音頻,最多 4 個揚聲器,超越了許多現有模型的功能。這使其成為內容創作者、開發人員和研究人員的強大工具。
VibeVoice 使用以 7.5 Hz 幀率運行的聲學和語義分詞器。與傳統 TTS 系統相比,這顯著降低了計算負載,傳統 TTS 系統通常以更高的幀率運行(例如,25-50 Hz)。這種效率允許處理更長的音頻序列並支持實時或接近實時的生成,這對於交互式應用程序至關重要。
採用下一代令牌擴散框架,將 LLM 與擴散頭相結合。LLM 理解文本上下文和對話流程,而擴散頭生成高保真聲學細節。這種方法允許對語音特徵進行細微的控制,包括韻律、語調和特定於揚聲器的聲音特徵,從而產生更自然的音頻。
在單個音頻生成中支持多達 4 個不同的揚聲器,這比通常處理 1-2 個揚聲器的許多 TTS 模型有了顯著進步。此功能對於創建播客、對話和其他多個聲音至關重要的對話內容特別有價值。該模型在長音頻片段中保持揚聲器一致性。
能夠合成長達 90 分鐘的語音。與許多現有 TTS 系統相比,這是一項顯著的改進,這些系統通常難以生成連貫且自然的音頻。這使得 VibeVoice 適合創建長篇內容,如有聲讀物、播客和教育材料。
VibeVoice 是開源的,允許開發人員和研究人員自由訪問、修改和分發代碼。這促進了 TTS 社區內的協作和創新。開源性質還允許自定義並與其他工具和平台集成,從而提高了其多功能性。
內容創作者可以使用 VibeVoice 從腳本生成整個播客劇集,與傳統錄製方法相比,節省了時間和資源。他們可以為不同的角色指定不同的揚聲器,確保動態和引人入勝的聆聽體驗。這使得能夠快速製作內容和進行實驗。
遊戲開發人員可以使用 VibeVoice 為非玩家角色 (NPC) 創建逼真且動態的對話。通過輸入文本和定義揚聲器特徵,開發人員可以快速生成語音線,減少對昂貴配音的需求並簡化開發流程。
作者和出版商可以利用 VibeVoice 將書面書籍高效地轉換為有聲讀物。多揚聲器支持允許不同角色的不同聲音,從而增強聽眾的體驗。這提供了一種具有成本效益的專業旁白的替代方案。
教育工作者可以使用 VibeVoice 創建引人入勝的音頻課程和演示文稿。他們可以從文本生成清晰簡潔的音頻解釋,並結合多種聲音來突出不同的概念。這提高了可訪問性並迎合了不同的學習方式。
播客創作者需要一個工具來快速有效地生成高質量的音頻內容。VibeVoice 允許他們從腳本創建劇集、管理多個揚聲器並嘗試不同的聲音,從而簡化製作工作流程並降低成本。
遊戲開發人員需要一種為他們的遊戲創建逼真且動態的對話的方法。VibeVoice 提供了一種具有成本效益的解決方案,用於為 NPC 生成語音線,使他們能夠增強玩家體驗,而無需支付專業配音演員的費用。
跨各種平台的內容創作者需要工具來製作引人入勝的音頻內容。VibeVoice 使他們能夠從文本生成音頻、嘗試不同的聲音並創建長篇內容,從而擴展他們的內容創建能力。
語音合成領域的研究人員可以利用 VibeVoice 的開源特性來試驗新技術並改進現有模型。他們可以修改代碼、在自定義數據集上進行訓練,並為 TTS 技术的進步做出貢獻。
開源 (MIT 許可證)。可免費使用、修改和分發。使用沒有相關費用。