如何使用 ElevenLabs 創建聽起來像您的人工智能聲音

Leonard Strauss included in Technology Explained Artificial Intelligence

2023-09-15 140 words One minute

Contents

生成式人工智能和深度偽造與人工智能語音工具的發展發生了衝突。這個想法很簡單:你接收一個聲音並操縱它說出你給它的單詞。

ElevenLabs 的人工智能工具通過提供免費使用計劃和備受推崇的優質替代方案，成為該類別中的領跑者。

ElevenLabs 是什麼?

ElevenLabs 由前 Google 機器學習專家和前 Palantir 部署專家創立，是一家語音技術研究公司。他們的方法的核心是開發先進的語音識別軟件，最終尋求促進不同語言之間口語單詞的實時無縫翻譯。

ElevenLabs 的語音 AI 是一種先進的文本轉語音系統，能夠產生高度真實的人聲。該公司的網站宣稱其目的是在教育、流媒體服務、有聲讀物、遊戲、電影甚至實時通信等各個領域提供無障礙的多語言音頻幫助。

谷歌翻譯等先進的語言翻譯工具或其替代品在促進跨越語言障礙的溝通方面具有重要價值。然而，目前還沒有技術可以將口語從一種語言即時完全準確地翻譯成另一種語言。儘管如此，開發能夠準確捕獲和轉換口語的系統被認為是實現這一目標的關鍵一步。通過複製原始說話者聲音的節奏、語氣和發音，這樣的系統可以有效地傳達他們的信息的預期含義，從而增強跨語言理解和交流。

什麼是人工智能語音生成?

人工智能驅動的語音生成使用戶能夠通過選擇所需的聲調並輸入文本內容來創建定制語音，該技術會自動生成反映指定參數的語音輸出。

事實上，儘管 Microsoft Sam 等早期語音合成技術能夠在 20 世紀 90 年代生成類似人類的聲音，但與現代文本轉語音系統相比，它們仍然缺乏明顯程度的自然性和真實性。相比之下，ElevenLabs 的創新解決方案展現了一定程度的語言流暢性和表現力，與人類交流中固有的細微差別和微妙之處更加一致。

ElevenLabs 提供多種語音人工智能選擇，包括免費提供的免費“預製”語音，以及允許用戶付費定制性別、年齡和方言等參數的人工智能語音生成器。此外，他們還通過訂閱服務提供優質的“克隆”聲音，允許用戶上傳自己的個性化人工智能聲音。

這是一個例子:

在創造性活動中使用人工智能需要承擔一定的道德和倫理義務，包括使用 ElevenLabs 的語音人工智能技術生成語音輸出，必須認真考慮和解決。

從本質上講，建議在使用他人的發聲之前獲得同意。儘管法律可能不會禁止此類行為，但它可能會引起有關個人的不滿或怨恨。

請記住，創建此內容時，ElevenLabs 的語音人工智能技術仍處於測試階段。因此，它尚未得到充分發展和完善。

生成基本的 AI 對話

啟動該過程的一種直接方法是利用 ElevenLabs 提供的免費語音人工智能實用程序。

要使用此功能，請轉至 beta.elevenlabs.io 並創建一個帳戶（您可以使用自己的電子郵件、Google 帳戶或 Facebook）。

下一個:

⭐點擊語音合成

在“設置”菜單中，您可以從各種預先存在的語音選項中進行選擇，包括男性和女性選擇。

⭐ 展開語音設置可設置穩定性和清晰度 \+ 相似度增強（高穩定性單調，高清晰度更接近預期語音）滑塊

⭐選擇十一單語（標準英語）

輸入您想要轉換為語音的文本。”這是一個命令，指示用戶使用文本轉語音技術輸入他們想要大聲朗讀的文本。用戶可以輸入任何類型的書面內容，例如句子或段落，並將其轉換為音頻格式進行播放。

⭐ 點擊生成

該過程完成後，視頻將自動播放。如果沒有發生這種情況，請單擊“播放”來啟動視頻。

您還可以下載生成的示例。

如何使用 ElevenLabs 製作人工智能語音

事實上，如果一個人希望建立一種創新的聲音風格，他們可以利用“添加聲音”選項導航到“VoiceLab”界面。或者，他們可以選擇使用 ElevenLabs 預先建立的語音參數來生成新穎的音調。

⭐ 點擊添加語音 > 語音設計

請填寫下面的相應字段，設置角色配音錄音的性別、年齡範圍和口音。

根據您所需的偏好調整口音強度滑塊，確保它滿足您對外語單詞準確發音的特定要求和偏好。

將文本從一種語言轉換為另一種語言的過程稱為翻譯。翻譯不僅僅涉及將一種語言中的單詞替換為另一種語言中的對應單詞。它需要了解所涉及的兩種語言的背景、文化和細微差別。這確保翻譯文本準確傳達原文的預期含義，同時也適合目標受眾。熟練的譯員經過培訓，能夠識別所使用的每種語言特有的文化參考、習語、口語和其他語言特徵。他們使用專門的軟件工具和參考材料來確保整個翻譯過程的準確性和一致性。

⭐ 點擊生成

⭐完成後，聽一下

經過檢查，發現女性/年輕/澳大利亞口音和男性/老年/澳大利亞口音都表現出明顯的“美國”品質。雖然目前這可能表現為不一致，但預計隨著技術進步的進步，它會得到解決。

在人工智能中創造你自己的聲音

ElevenLabs 技術的有趣之處在於其創新的即時語音克隆功能，該功能為語音生成提供了預配置和可定制的選項。

訂閱即時語音克隆需要支付訂閱費用。我們提供多種定價級別，最實惠的計劃每月只需 5 美元。然而，目前我們很高興為新客戶提供誘人的促銷活動，將我們的標準費率降低 80%，這樣您在介紹期內的初始支出將僅為 1 美元。

其他替代方案的價格分別為 22 美元、99 美元和 330 美元（定期），每種方案每月最多可生成 40 小時的音頻內容。

要利用 ElevenLabs 提供的語音克隆技術，您必須提供口頭交流以及您自己的發聲錄音。對話必須易於理解並以 MP3 文件格式保存。為了獲得最佳效果，建議使用較長的音頻剪輯，持續長達五分鐘。

從 VoiceLab 屏幕:

請選擇以下選項之一將語音添加到您的帳戶。您可以選擇“即時語音克隆”或“自定義您自己的語音”。

在隨後出現的界面窗格中，為顯示的框架分配一個名字。

請通過單擊並將其拖至此字段來提供用於分析的文件，最多可以同時上傳 25 個文件以提高精度。

⭐ 單擊“標籤”並指定鍵 \+ 值（例如重音/英式）– 最多執行 5 次

輸入為用戶提供指令，通過輸入捕捉預期聲音本質的短語或句子，以簡潔的方式描述他們想要的聲音特徵，例如音調、音調和音量。

請先查看並確認服務條款，然後再選擇“同意確認”複選框，然後單擊“添加語音”來添加語音輸入功能。

如前所述，在合併聲音組件後，人們可以在語音合成界面中微調其特性。

AI 語音可以做什麼?

正如 ElevenLabs 實時語言轉換的最終目標所表明的那樣，利用人工智能中預先存在的和復制的發聲的潛在應用是巨大的。然而，該公司也承認有多種替代用途。

有聲讀物可能由昔日傑出的電影人物講述，經常與利用人工智能進行口語對話的視頻遊戲一起討論，從而消除對人類配音演員的需求。然而，它們的潛在應用遠遠超出了這些領域，涵蓋了音樂、諷刺和自我完善文學等流派。

人們可以利用人工智能生成的語音來生成播客；然而，結果可能會表現出一種無吸引力和單調的品質。

我們的播客劇集之一的介紹性部分題為“真正有用的播客”，是利用 ElevenLabs 提供的服務精心製作的。

儘管結果不太理想，但其結果被認為是可以被實際應用所接受的，並且未來還有足夠的技術進步空間。

此外，ElevenLabs還表示計劃開發創新的“生成語音對話”功能，並將在不久的將來推出。

通過 ElevenLabs™ 語音 AI 以新方式使用您的聲音

近年來，人工智能為我們提供了大量卓越的創新。例如，Chat-GPT 提供了生成文本、響應查詢、撰寫摘要等多種功能。此外，Midjourney 作為一個出色的創意平台脫穎而出，它採用人工智能技術，根據用戶輸入的靈感生成視覺藝術作品。

ElevenLabs 開發的創新語音人工智能工具簡化了語音操作過程，無縫模仿原始說話者的語氣和語調。這項先進技術使用戶能夠製作令人信服的音頻克隆，與說話者獨特的聲音特徵非常相似。

使用語音技術會引發道德問題，即在使用前獲得個人同意；然而，它提供了一種非凡的方法，具有一些有趣的潛力。該技術最值得注意的方面是其用戶友好性和顯著的功效。