Jak stworzyć głos SI, który brzmi jak ty, dzięki ElevenLabs

Leonard Strauss included in Technology Explained Artificial Intelligence

2023-09-15 1461 words 7 minutes

Contents

Generatywna sztuczna inteligencja i deepfakes zderzyły się z rozwojem narzędzi głosowych AI. Pomysł jest prosty: bierzesz głos i manipulujesz nim, aby wypowiedział słowa, które mu nadasz.

Narzędzie sztucznej inteligencji ElevenLabs wyróżnia się jako lider w tej kategorii, oferując zarówno bezpłatny plan użytkowania, jak i wysoko cenione alternatywy premium.

Czym jest ElevenLabs?

Założona przez byłego specjalistę ds. uczenia maszynowego Google i byłego eksperta ds. wdrażania Palantir, ElevenLabs jest firmą zajmującą się badaniami technologii głosowych. Centralnym elementem ich podejścia jest rozwój zaawansowanego oprogramowania do rozpoznawania mowy, które ostatecznie ma na celu ułatwienie płynnego tłumaczenia wypowiadanych słów w różnych językach w czasie rzeczywistym.

Voice AI firmy ElevenLabs to zaawansowany system zamiany tekstu na mowę, zdolny do tworzenia wysoce autentycznie brzmiącego ludzkiego głosu. Na swojej stronie internetowej firma deklaruje, że jej celem jest zapewnienie dostępnej wielojęzycznej pomocy audio w różnych sektorach, takich jak edukacja, usługi streamingowe, książki audio, gry, filmy, a nawet komunikacja w czasie rzeczywistym.

Zaawansowane narzędzie do tłumaczenia języków, takie jak Tłumacz Google lub jego substytuty, ma znaczną wartość w ułatwianiu komunikacji ponad barierami językowymi. Jednak obecnie nie ma dostępnej technologii do natychmiastowego tłumaczenia wypowiadanych słów z jednego języka na inny z pełną dokładnością. Niemniej jednak opracowanie systemu zdolnego do dokładnego przechwytywania i konwertowania języka mówionego jest uważane za kluczowy krok w kierunku realizacji tego celu. Replikując kadencję, ton i wymowę oryginalnego głosu mówcy, taki system mógłby skutecznie przekazać zamierzone znaczenie ich wiadomości, poprawiając w ten sposób międzyjęzykowe zrozumienie i komunikację.

Czym jest generowanie głosu przez sztuczną inteligencję?

Generowanie głosu oparte na sztucznej inteligencji umożliwia użytkownikom tworzenie spersonalizowanej mowy poprzez wybranie żądanego tonu głosu i wprowadzenie treści tekstowej, a technologia automatycznie generuje dane wyjściowe, które odzwierciedlają określone parametry.

Rzeczywiście, podczas gdy wczesne technologie syntezy mowy, takie jak Microsoft Sam, były w stanie generować głosy podobne do ludzkich w latach 90-tych, nadal brakowało im znacznego stopnia naturalności i autentyczności w porównaniu z nowoczesnymi systemami zamiany tekstu na mowę. W przeciwieństwie do nich, innowacyjne rozwiązanie ElevenLabs wykazuje poziom płynności językowej i ekspresji, który jest znacznie bardziej zbliżony do niuansów i subtelności związanych z komunikacją międzyludzką.

ElevenLabs oferuje różnorodne opcje sztucznej inteligencji mowy, w tym bezpłatne “gotowe” głosy, które są dostępne bezpłatnie, a także generator głosów AI umożliwiający użytkownikom dostosowanie parametrów, takich jak płeć, wiek i dialekt za opłatą. Ponadto oferują “sklonowane” głosy premium za pośrednictwem usługi subskrypcji, która umożliwia użytkownikom przesyłanie własnych spersonalizowanych głosów AI.

Oto przykład:

Wykorzystanie sztucznej inteligencji w kreatywnych przedsięwzięciach pociąga za sobą pewne moralne i etyczne zobowiązania, w tym generowanie wyników głosowych przy użyciu technologii mowy AI ElevenLabs, które należy dokładnie rozważyć i zająć się nimi.

Zasadniczo zaleca się uzyskanie zgody przed wykorzystaniem wokalizacji innej osoby. Chociaż takie działanie może nie być zabronione przez prawo, może potencjalnie wywołać uczucie niezadowolenia lub urazy ze strony danej osoby.

Należy pamiętać, że w momencie tworzenia tej treści technologia sztucznej inteligencji mowy ElevenLabs była nadal w fazie beta. W związku z tym nie została jeszcze w pełni rozwinięta i dopracowana.

Generowanie podstawowego dialogu AI

Jedną z prostych metod zainicjowania procesu jest wykorzystanie bezpłatnego narzędzia sztucznej inteligencji mowy dostarczonego przez ElevenLabs.

Aby z niego skorzystać, przejdź do beta.elevenlabs.io i utwórz konto (możesz użyć własnego adresu e-mail, konta Google lub Facebooka).

Dalej:

⭐ClickSpeech Synthesis

W menu “Ustawienia” możesz wybierać spośród wielu istniejących wcześniej opcji głosowych, w tym zarówno męskich, jak i żeńskich.

⭐ Rozwiń ustawienia głosu, aby ustawić suwaki Stabilność i Wyrazistość \\+ Wzmocnienie podobieństwa (wysoka stabilność jest monotoniczna, wysoka wyrazistość bliższa zamierzonemu głosowi)

⭐ WybierzEleven Monolingual(standardowy angielski)

Wprowadź tekst, który chcesz przekonwertować na mowę". Jest to polecenie, które instruuje użytkownika, aby wprowadził żądany tekst, który ma być wypowiadany na głos przy użyciu technologii zamiany tekstu na mowę. Użytkownik może wprowadzić dowolny rodzaj pisemnej treści, takiej jak zdania lub akapity, i przekonwertować ją na format audio do odtwarzania.

⭐ Kliknij Generate

Po zakończeniu procesu wideo zostanie automatycznie odtworzone. Jeśli tak się nie stanie, kliknij “Odtwórz”, aby rozpocząć odtwarzanie wideo.

Możesz również pobrać wygenerowaną próbkę.

Jak stworzyć głos AI za pomocą ElevenLabs

Rzeczywiście, jeśli ktoś chce stworzyć innowacyjny styl wokalny, może skorzystać z opcji “Dodaj głos”, aby przejść do interfejsu “VoiceLab”. Alternatywnie, mogą zdecydować się na wygenerowanie nowego tonu, wykorzystując wstępnie ustalone parametry głosu ElevenLabs.

⭐ Kliknij Add Voice > Voice Design

Ustaw płeć, przedział wiekowy i akcent dla nagrania lektora postaci, wypełniając odpowiednie pola poniżej.

Dostosuj suwak siły akcentu do swoich preferencji, upewniając się, że spełnia on określone wymagania i preferencje dotyczące dokładnej wymowy słów w języku obcym.

Proces konwersji tekstu z jednego języka na inny nazywany jest tłumaczeniem. Tłumaczenie obejmuje więcej niż tylko zastąpienie słów w jednym języku ich odpowiednikami w innym języku. Wymaga ono zrozumienia kontekstu, kultury i niuansów obu języków. Zapewnia to, że przetłumaczony tekst dokładnie przekazuje zamierzone znaczenie oryginalnego tekstu, a jednocześnie jest odpowiedni dla docelowych odbiorców. Wykwalifikowani tłumacze są przeszkoleni w zakresie rozpoznawania odniesień kulturowych, idiomów, kolokwializmów i innych cech językowych specyficznych dla każdego języka, z którym pracują. Korzystają oni ze specjalistycznego oprogramowania i materiałów referencyjnych, aby zapewnić dokładność i spójność w całym procesie tłumaczenia.

⭐ Click Generate

⭐ When it’s done, have a listen

Po zbadaniu zaobserwowano, że zarówno kobiecy/młody/australijski, jak i męski/stary/australijski akcent wykazywał zauważalną “amerykańską” jakość. Chociaż obecnie może to stanowić niespójność, można oczekiwać, że zostanie ona rozwiązana wraz z postępem technologicznym.

Tworzenie własnego głosu w AI

Intrygującym aspektem technologii ElevenLabs jest jej innowacyjna funkcja Instant Voice Cloning, która oferuje zarówno wstępnie skonfigurowane, jak i konfigurowalne opcje generowania głosu.

Subskrypcja Instant Voice Cloning podlega cyklicznej opłacie, która wymaga subskrypcji. Oferujemy wiele poziomów cenowych, z najbardziej przystępnym planem, który kosztuje 5 USD miesięcznie. Obecnie mamy jednak przyjemność zapewnić nowym klientom kuszącą promocję, obniżając naszą standardową stawkę o 80%, dzięki czemu początkowe nakłady wyniosą zaledwie 1 USD w okresie wprowadzającym.

Dodatkowe alternatywy są dostępne w cenach 22 USD, 99 USD i 330 USD na zasadzie cyklicznej, z których każda może wyprodukować do 40 godzin treści audio miesięcznie.

Aby skorzystać z technologii klonowania głosu oferowanej przez ElevenLabs, musisz dostarczyć wymianę słowną wraz z nagraniem własnej wokalizacji. Ważne jest, aby dialog był łatwo zrozumiały i zapisany w formacie MP3. Aby uzyskać optymalne wyniki, zaleca się dłuższy klip audio, trwający do pięciu minut.

Na ekranie VoiceLab:

Wybierz jedną z poniższych opcji, aby dodać głos do swojego konta. Do wyboru jest opcja “Natychmiastowe klonowanie głosu” lub “Dostosuj własny głos”.

W następnym panelu interfejsu przypisz moniker do wyświetlanej ramki.

Podaj plik do analizy, klikając i przeciągając go do tego pola, maksymalnie 25 plików może być przesłanych jednocześnie w celu zwiększenia precyzji.

⭐ Kliknij Etykiety i określ wartość klucza \ \ + (np. Akcent/Brytyjski) - wykonaj tę czynność maksymalnie 5 razy

Dane wejściowe zawierają instrukcje dla użytkowników, aby w zwięzły sposób opisać pożądane cechy wokalne, takie jak wysokość, ton i głośność, wprowadzając krótką frazę lub zdanie, które oddaje istotę zamierzonego dźwięku.

Przed przystąpieniem do dodawania funkcji wprowadzania głosowego należy zapoznać się i zaakceptować warunki korzystania z usługi, zaznaczając pole wyboru “Potwierdzenie zgody”, a następnie klikając “Dodaj głos”.

Po włączeniu komponentu głosowego można dostosować jego charakterystykę w interfejsie syntezy mowy, jak wspomniano wcześniej.

Co można zrobić z głosem AI?

Potencjalne zastosowania wykorzystania wcześniej istniejących i replikowanych wokalizacji w sztucznej inteligencji są ogromne, na co wskazuje ostateczny cel ElevenLabs, jakim jest konwersja języka w czasie rzeczywistym. Jednak firma przyznała również, że istnieje wiele alternatywnych zastosowań.

Audiobooki, których narratorem może być wybitna postać filmowa z przeszłości, są często omawiane wraz z grami wideo, które wykorzystują sztuczną inteligencję do dialogów mówionych, eliminując w ten sposób potrzebę ludzkich aktorów głosowych. Jednak ich potencjalne zastosowania wykraczają daleko poza te sfery, obejmując między innymi gatunki takie jak muzyka, satyra i literatura samodoskonalenia.

Można wygenerować podcast wykorzystujący mowę generowaną przez sztuczną inteligencję; jednak wynik może wykazywać mało angażującą i monotonną jakość.

Segment wprowadzający do jednego z naszych odcinków podcastu, zatytułowanego “Naprawdę przydatny podcast”, został stworzony przy użyciu usług świadczonych przez ElevenLabs.

Niezależnie od mniej niż optymalnych wyników, wynik jest uważany za akceptowalny dla praktycznego zastosowania i istnieje wiele miejsca na postęp technologiczny w przyszłości.

Ponadto ElevenLabs wyraziło również plany rozwoju innowacyjnej funkcji “generowanej rozmowy głosowej”, która zostanie wprowadzona w najbliższej przyszłości.

Wykorzystaj swój głos w nowy sposób dzięki sztucznej inteligencji mowy ElevenLabs

Sztuczna inteligencja odegrała kluczową rolę w dostarczeniu nam wielu niezwykłych innowacji w ostatnim czasie. Na przykład Chat-GPT oferuje wszechstronne funkcje generowania tekstu, odpowiadania na zapytania, tworzenia podsumowań i wiele więcej. Ponadto Midjourney wyróżnia się jako wyjątkowa platforma kreatywna, która wykorzystuje technologię AI do generowania wizualnych dzieł sztuki inspirowanych danymi wejściowymi użytkownika.

Innowacyjne narzędzie Speech AI Tool opracowane przez ElevenLabs usprawnia proces manipulacji głosem, tworząc płynną imitację oryginalnego tonu i fleksji mówcy. Ta zaawansowana technologia pozwala użytkownikom tworzyć przekonujące klony audio, które ściśle przypominają unikalne cechy wokalne mówcy.

Wykorzystanie technologii głosowej budzi obawy etyczne związane z uzyskaniem zgody od osób przed jej użyciem; stanowi jednak niezwykły środek z kilkoma intrygującymi możliwościami. Najbardziej godnym uwagi aspektem tej techniki jest jej łatwość obsługi i niezwykła skuteczność.