Contents

Hoe maak je een AI-stem die klinkt zoals jij met ElevenLabs?

Generatieve AI en deepfakes zijn in botsing gekomen met de ontwikkeling van AI-stemhulpmiddelen. Het idee is eenvoudig: je neemt een stem en manipuleert die om de woorden uit te spreken die je hem geeft.

De tool voor kunstmatige intelligentie van ElevenLabs onderscheidt zich als de koploper in deze categorie door zowel een gratis gebruiksplan als zeer gewaardeerde premium alternatieven aan te bieden.

Wat is ElevenLabs?

ElevenLabs is een onderzoeksbureau voor spraaktechnologie dat is opgericht door een voormalige Google-specialist op het gebied van machine learning en een voormalige implementatie-expert van Palantir. Centraal in hun aanpak staat de ontwikkeling van geavanceerde spraakherkenningssoftware, die uiteindelijk een naadloze vertaling van gesproken woorden in verschillende talen in realtime mogelijk moet maken.

Voice AI van ElevenLabs is een geavanceerd tekst-naar-spraaksysteem dat een zeer authentiek klinkende menselijke stem kan produceren. Volgens de website van het bedrijf is het doel om toegankelijke meertalige audiohulp te bieden in verschillende sectoren zoals onderwijs, streamingdiensten, audioboeken, games, film en zelfs real-time communicatie.

Een geavanceerd vertaalprogramma zoals Google Translate of zijn vervangers is van grote waarde om communicatie over taalbarriĆØres heen te vergemakkelijken. Er is momenteel echter geen technologie beschikbaar om gesproken woorden onmiddellijk en met volledige nauwkeurigheid van de ene taal naar de andere te vertalen. Toch wordt de ontwikkeling van een systeem dat gesproken taal nauwkeurig kan vastleggen en omzetten beschouwd als een cruciale stap om dit doel te bereiken. Door de cadans, toon en uitspraak van de stem van de oorspronkelijke spreker na te bootsen, zou zo’n systeem de bedoelde betekenis van de boodschap effectief kunnen overbrengen en zo het begrip en de communicatie tussen verschillende talen verbeteren.

Wat is AI-stemgeneratie?

AI-gestuurde stemgeneratie stelt gebruikers in staat om spraak op maat te maken door een gewenste stemtoon te selecteren en tekstuele inhoud in te voeren, waarbij de technologie automatisch gesproken output produceert die de gespecificeerde parameters weerspiegelt.

Hoewel vroege spraaksynthesetechnologieƫn zoals Microsoft Sam in de jaren 90 in staat waren om stemmen te genereren die op mensen leken, misten ze nog steeds een aanzienlijke mate van natuurlijkheid en authenticiteit in vergelijking met moderne tekst-naar-spraaksystemen. Daarentegen vertoont de innovatieve oplossing van ElevenLabs een niveau van taalvloeiendheid en expressiviteit die veel meer overeenkomt met de nuances en subtiliteiten die inherent zijn aan menselijke communicatie.

ElevenLabs biedt een verscheidenheid aan AI-stemmen, waaronder gratis ‘voorgemaakte’ stemmen en een AI-stemgenerator waarmee gebruikers tegen betaling parameters als geslacht, leeftijd en dialect kunnen aanpassen. Daarnaast bieden ze premium “gekloonde” stemmen aan via een abonnementsdienst waarmee gebruikers hun eigen gepersonaliseerde AI-stemmen kunnen uploaden.

Hier is een voorbeeld:

Het gebruik van kunstmatige intelligentie in creatieve ondernemingen brengt bepaalde morele en ethische verplichtingen met zich mee, waaronder het genereren van stemmen met behulp van de spraak-AI-technologie van ElevenLabs.

In essentie is het raadzaam om toestemming te vragen voordat je de stem van een ander gebruikt. Hoewel dit niet bij wet verboden is, kan het mogelijk gevoelens van ontevredenheid of wrok oproepen bij de betrokken persoon.

Houd er rekening mee dat op het moment dat deze inhoud werd gemaakt, de technologie van ElevenLabs voor kunstmatige spraakintelligentie zich nog in de betafase bevond. Het is dus nog niet volledig ontwikkeld en verfijnd.

Een basis AI dialoog genereren

Een eenvoudige methode om het proces te starten is door gebruik te maken van het gratis spraak kunstmatige intelligentie programma van ElevenLabs.

Om dit te gebruiken ga je naar beta.elevenlabs.io en maak je een account aan (je kunt je eigen e-mail, een Google-account of Facebook gebruiken).

Volgende:

⭐ClickSpeech Synthesis

In het menu “Instellingen” kun je kiezen uit een aantal bestaande stemopties, waaronder zowel mannelijke als vrouwelijke selecties.

⭐ Breid Spraakinstellingen uit om Stabiliteit en Helderheid in te stellen (hoge stabiliteit is monotoon, hoge helderheid dichter bij de bedoelde stem) schuifregelaars /nl/images/muo-tech-explained-elevenlabs-speech-ai-synthesis-settings.jpg

⭐SelectEleven eentalig (standaard Engels)

Voer de tekst in die u wilt omzetten in spraak. Dit is een opdracht waarmee de gebruiker de gewenste tekst kan invoeren die hij hardop wil laten uitspreken met behulp van tekst-naar-spraak technologie. De gebruiker kan elk type geschreven inhoud invoeren, zoals zinnen of alinea’s, en deze laten omzetten naar een audioformaat om af te spelen.

⭐ Klik op /nl/images/muo-tech-explained-elevenlabs-speech-ai-synthesis-generate.jpg genereren

Na voltooiing van het proces wordt de video automatisch afgespeeld. Als dit niet gebeurt, klik dan op “Afspelen” om de video te starten.

U kunt het gegenereerde voorbeeld ookDownloaden.

Hoe maak je een AI-stem met ElevenLabs

Als je een innovatieve stemstijl wilt creĆ«ren, kun je de optie “Stem toevoegen” gebruiken om naar de interface “VoiceLab” te gaan. Je kunt er ook voor kiezen om een nieuwe toon te genereren door gebruik te maken van de vooraf ingestelde stemparameters van ElevenLabs.

⭐ Klik op Voeg stem toe > Voice Design /nl/images/muo-tech-explained-elevenlabs-speech-ai-voice-design-button.jpg

Stel het geslacht, de leeftijd en het accent in voor de voice-overopname van je personage door de overeenkomstige velden hieronder in te vullen.

Stel de schuif voor Accentsterkte in op je gewenste voorkeur en zorg ervoor dat deze voldoet aan je specifieke eisen en voorkeuren voor een nauwkeurige uitspraak van woorden in een vreemde taal.

Het omzetten van een tekst van de ene taal naar de andere staat bekend als vertalen. Vertalen is meer dan alleen woorden in de ene taal vervangen door hun equivalenten in een andere taal. Het vereist begrip van de context, cultuur en nuances van beide betrokken talen. Dit zorgt ervoor dat de vertaalde tekst nauwkeurig de bedoelde betekenis van de originele tekst overbrengt en tegelijkertijd geschikt is voor het doelpubliek. Bekwame vertalers zijn opgeleid om culturele verwijzingen, idiomen, spreektaal en andere taalkundige kenmerken te herkennen die specifiek zijn voor elke taal waarmee ze werken. Ze gebruiken gespecialiseerde softwaretools en referentiemateriaal om nauwkeurigheid en consistentie tijdens het vertaalproces te garanderen.

⭐ Klik op /nl/images/muo-tech-explained-elevenlabs-speech-ai-voice-design-options.jpg

⭐ Als het klaar is, luister dan even

Bij onderzoek werd opgemerkt dat zowel het accent van de vrouw/jonge/Australische als dat van de man/oude/Australische een waarneembaar “Amerikaans” accent had. Hoewel dit momenteel een inconsistentie is, zal dit naar verwachting worden opgelost naarmate de technologie voortschrijdt.

Je eigen stem creƫren in AI

Het intrigerende aspect van de technologie van ElevenLabs ligt in de innovatieve Instant Voice Cloning-functie, die zowel vooraf geconfigureerde als aanpasbare opties biedt voor het genereren van stemmen.

Abonneren op Instant Voice Cloning is onderworpen aan een terugkerend bedrag waarvoor een abonnement nodig is. We bieden verschillende prijsniveaus, waarbij het meest betaalbare plan je $5 per maand kost. Op dit moment bieden we nieuwe klanten echter een verleidelijke promotie, waarbij we ons standaardtarief met 80% verlagen, zodat uw eerste uitgave tijdens de introductieperiode slechts $1 bedraagt.

Er zijn extra alternatieven beschikbaar tegen terugkerende prijzen van $22, $99 en $330, die elk tot 40 uur audio-inhoud per maand kunnen produceren.

Om gebruik te maken van de voice cloning technologie van ElevenLabs, moet je een verbale uitwisseling aanleveren samen met een opname van je eigen vocalisatie. Het is essentieel dat de dialoog goed verstaanbaar is en opgeslagen is in een MP3-bestandsformaat. Voor een optimaal resultaat wordt een langere audioclip aangeraden, van maximaal vijf minuten.

Vanuit het VoiceLab-scherm:

Selecteer een van de onderstaande opties om een stem aan je account toe te voegen. Je kunt kiezen uit “Instant Voice Cloning” of “Pas je eigen stem aan”.

Wijs in het volgende interfacevenster een naam toe aan het weergegeven frame.

Geef een bestand op voor analyse door erop te klikken en het naar dit veld te slepen. Er kunnen maximaal 25 bestanden tegelijk worden geüpload om de nauwkeurigheid te verbeteren.

⭐ Klik op Labels en geef een toetswaarde op (bijv. Accent/Brits) - doe dit maximaal 5 keer /nl/images/muo-tech-explained-elevenlabs-speech-ai-voice-cloning.jpg

De invoer biedt instructies voor gebruikers om hun gewenste stemkenmerken op een beknopte manier te beschrijven, zoals toonhoogte, toon en volume, door een korte zin of zin in te voeren die de essentie van het beoogde geluid weergeeft.

Lees en accepteer de servicevoorwaarden voordat u spraakinvoer toevoegt door het selectievakje “Toestemming bevestiging” in te schakelen en vervolgens op “Stem toevoegen” te klikken.

Nadat een stemcomponent is toegevoegd, kunnen de kenmerken ervan worden verfijnd binnen de spraaksynthese-interface, zoals eerder vermeld.

Wat kun je doen met een AI-stem?

De potentiĆ«le toepassingen van het gebruik van reeds bestaande en gerepliceerde vocalisaties in kunstmatige intelligentie zijn enorm, zoals wordt aangegeven door ElevenLabs’ uiteindelijke doel van real-time taalconversie. Het bedrijf erkent echter ook een groot aantal alternatieve toepassingen.

Luisterboeken, die kunnen worden ingesproken door een illustere filmfiguur van weleer, worden vaak besproken naast videogames die kunstmatige intelligentie gebruiken voor gesproken dialogen, waardoor er geen menselijke stemacteurs meer nodig zijn. Hun potentiƫle toepassingen reiken echter veel verder dan deze gebieden en omvatten onder andere genres als muziek, satire en literatuur over zelfverbetering.

Men kan een podcast maken met behulp van door kunstmatige intelligentie gegenereerde spraak, maar het resultaat kan een weinig boeiende en monotone kwaliteit hebben.

Het inleidende segment voor een van onze podcastafleveringen, getiteld “Really Useful Podcast”, is gemaakt met behulp van de diensten van ElevenLabs.

Ondanks de minder dan optimale uitkomsten, wordt het resultaat acceptabel geacht voor praktische toepassing en is er voldoende ruimte voor technologische vooruitgang in de toekomst.

Daarnaast heeft ElevenLabs ook plannen voor de ontwikkeling van een innovatieve “gegenereerde stem conversatie” functie die in de nabije toekomst zal worden uitgerold.

Gebruik je stem op een nieuwe manier met ElevenLabs’ Speech AI

Kunstmatige intelligentie heeft ons de laatste tijd een overvloed aan opmerkelijke innovaties opgeleverd. Chat-GPT biedt bijvoorbeeld veelzijdige functionaliteit voor het genereren van tekst, het reageren op vragen, het samenstellen van samenvattingen en nog veel meer. Daarnaast onderscheidt Midjourney zich als een uitzonderlijk creatief platform dat gebruik maakt van AI-technologie om visuele kunstwerken te genereren die zijn geĆÆnspireerd op de input van de gebruiker.

De innovatieve Speech AI Tool ontwikkeld door ElevenLabs stroomlijnt het proces van stemmanipulatie en creƫert een naadloze imitatie van de toon en stembuiging van de originele spreker. Met deze geavanceerde technologie kunnen gebruikers overtuigende audioklonen maken die sterk lijken op de unieke stemkenmerken van de spreker.

Het gebruik van spraaktechnologie roept ethische bezwaren op met betrekking tot het verkrijgen van toestemming van individuen voorafgaand aan het gebruik ervan; het is echter een buitengewoon middel met een aantal intrigerende mogelijkheden. Het meest opmerkelijke aspect van deze techniek is de gebruiksvriendelijkheid en opmerkelijke doeltreffendheid.