Contents

Så skapar du en AI-röst som låter som du med ElevenLabs

Generativ AI och deepfakes har kolliderat med utvecklingen av AI-röstverktyg. Idén är enkel: man tar en röst och manipulerar den så att den uttalar de ord man ger den.

ElevenLabs verktyg för artificiell intelligens sticker ut som föregångare i denna kategori genom att erbjuda både en kostnadsfri användningsplan och mycket uppskattade premiumalternativ.

Vad är ElevenLabs?

ElevenLabs grundades av en tidigare Google-maskininlärningsspecialist och en tidigare Palantir-distributionsexpert och är ett forskningsföretag för röstteknik. En central del i deras strategi är utvecklingen av avancerad programvara för taligenkänning, som i slutändan syftar till att underlätta sömlös översättning av talade ord mellan olika språk i realtid.

ElevenLabs Voice AI är ett avancerat text-till-tal-system som kan producera en mycket autentisk mänsklig röst. Enligt företagets webbplats är syftet att tillhandahålla tillgänglig flerspråkig ljudassistans inom olika sektorer som utbildning, streamingtjänster, ljudböcker, spel, film och till och med realtidskommunikation.

Ett avancerat språköversättningsverktyg som Google Translate eller dess ersättare har ett betydande värde för att underlätta kommunikation över språkliga barriärer. För närvarande finns det dock ingen teknik tillgänglig för att omedelbart översätta talade ord från ett språk till ett annat med fullständig noggrannhet. Utvecklingen av ett system som kan fånga upp och omvandla talat språk på ett korrekt sätt anses dock vara ett avgörande steg mot att uppnå detta mål. Genom att återskapa kadens, ton och uttal hos den ursprungliga talarens röst, kan ett sådant system effektivt förmedla den avsedda innebörden av deras budskap och därigenom förbättra tvärspråklig förståelse och kommunikation.

Vad är AI-röstgenerering?

AI-driven röstgenerering gör det möjligt för användare att skapa anpassat tal genom att välja en önskad röstton och mata in textinnehåll, med tekniken som automatiskt producerar talad produktion som återspeglar de angivna parametrarna.

Även om tidiga talsynteser som Microsoft Sam kunde generera människoliknande röster under 1990-talet, saknade de fortfarande en betydande grad av naturlighet och autenticitet jämfört med moderna text-till-tal-system. ElevenLabs innovativa lösning uppvisar däremot en nivå av språkligt flyt och uttrycksfullhet som ligger mycket närmare de nyanser och finesser som finns i mänsklig kommunikation.

ElevenLabs tillhandahåller en mängd olika AI-röster, inklusive deras kostnadsfria “premade” röster, samt en AI-röstgenerator som gör det möjligt för användare att anpassa parametrar som kön, ålder och dialekt mot en avgift. Dessutom erbjuder de premium “klonade” röster genom en prenumerationstjänst som gör det möjligt för användare att ladda upp sina egna personliga AI-röster.

Här är ett exempel:

Användningen av artificiell intelligens i kreativa verksamheter medför vissa moraliska och etiska skyldigheter, inklusive generering av röster med ElevenLabs tal-AI-teknik, som måste beaktas och hanteras omsorgsfullt.

I grund och botten är det tillrådligt att inhämta samtycke innan man använder en annan persons röst. Även om en sådan åtgärd inte är förbjuden enligt lag, kan den potentiellt väcka känslor av missnöje eller förbittring hos den berörda personen.

Tänk på att när detta innehåll skapades var ElevenLabs teknik för artificiell intelligens för tal fortfarande i betafasen. Den har därför ännu inte utvecklats och förfinats fullt ut.

Skapa en grundläggande AI-dialog

En enkel metod för att inleda processen är att använda ElevenLabs kostnadsfria verktyg för artificiell intelligens för tal.

För att använda detta, gå till beta.elevenlabs.io och skapa ett konto (du kan använda din egen e-post, ett Google-konto eller Facebook).

Nästa:

⭐ClickSpeech Synthesis

I menyn “Inställningar” kan du välja mellan en mängd olika befintliga röstalternativ, inklusive både manliga och kvinnliga val.

⭐ Expandera Röstinställningar för att ställa in Stabilitet och Klarhet \\+ Likhetsförbättring (hög stabilitet är monoton, hög klarhet närmare den avsedda rösten) reglage /sv/images/muo-tech-explained-elevenlabs-speech-ai-synthesis-settings.jpg

⭐VäljEleven Monolingual(standard engelska)

Ange den text du vill konvertera till tal." Detta är ett kommando som instruerar användaren att ange önskad text som ska läsas upp med hjälp av text-till-tal-teknik. Användaren kan ange alla typer av skrivet innehåll, t.ex. meningar eller stycken, och få det konverterat till ett ljudformat för uppspelning.

⭐ Klicka på Generera /sv/images/muo-tech-explained-elevenlabs-speech-ai-synthesis-generate.jpg

När processen är klar kommer videon att spelas upp automatiskt. Om detta inte sker, vänligen klicka på “Play” för att starta videon.

Du kan också ladda ner det genererade exemplet.

Hur man skapar en AI-röst med ElevenLabs

Om man vill skapa en innovativ röststil kan man använda alternativet “Lägg till röst” för att navigera till “VoiceLab”-gränssnittet. Alternativt kan man välja att skapa en ny ton genom att använda ElevenLabs fördefinierade röstparametrar.

⭐ Klicka på Lägg till röst > Röstdesign /sv/images/muo-tech-explained-elevenlabs-speech-ai-voice-design-button.jpg

Ange kön, åldersgrupp och accent för din karaktärs röstinspelning genom att fylla i motsvarande fält nedan.

Justera reglaget Accentstyrka till önskad inställning och se till att den uppfyller dina specifika krav och preferenser för korrekt uttal av ord på ett främmande språk.

Processen att konvertera en text från ett språk till ett annat kallas för översättning. Översättning innebär mer än att bara ersätta ord på ett språk med deras motsvarigheter på ett annat språk. Det krävs en förståelse för sammanhanget, kulturen och nyanserna i båda de inblandade språken. Detta säkerställer att den översatta texten korrekt förmedlar den avsedda innebörden av originaltexten samtidigt som den är lämplig för målgruppen. Skickliga översättare är utbildade för att känna igen kulturella referenser, idiom, vardagliga uttryck och andra språkliga särdrag som är specifika för varje språk de arbetar med. De använder specialiserade programvaruverktyg och referensmaterial för att säkerställa noggrannhet och konsekvens i hela översättningsprocessen.

⭐ Klicka på Generera /sv/images/muo-tech-explained-elevenlabs-speech-ai-voice-design-options.jpg

⭐ När det är klart, lyssna

Vid undersökningen observerades att både kvinnliga / unga / australiensiska och manliga / gamla / australiensiska accenter uppvisade en urskiljbar “amerikansk” kvalitet. Även om detta för närvarande kan framstå som en inkonsekvens, kan det förväntas lösas i takt med att tekniken utvecklas.

Skapa din egen röst i AI

Det intressanta med ElevenLabs teknik är den innovativa funktionen Instant Voice Cloning, som erbjuder både förkonfigurerade och anpassningsbara alternativ för röstgenerering.

Prenumeration på Instant Voice Cloning är föremål för en återkommande avgift som kräver en prenumeration. Vi erbjuder flera prisnivåer, där den mest prisvärda planen kostar dig 5 USD per månad. För närvarande har vi dock nöjet att erbjuda nya kunder en lockande kampanj, där vi sänker vårt standardpris med 80%, så att din initiala utlägg blir endast $1 under introduktionsperioden.

Ytterligare alternativ finns tillgängliga till priser på $22, $99 och $330 på en återkommande basis, var och en kan producera upp till 40 timmars ljudinnehåll per månad.

För att kunna använda ElevenLabs teknik för röstkloning måste du tillhandahålla en verbal dialog tillsammans med en inspelning av din egen röst. Det är viktigt att dialogen är lättbegriplig och sparas i MP3-format. För bästa resultat rekommenderas ett längre ljudklipp på upp till fem minuter.

Från VoiceLab-skärmen:

Välj ett av alternativen nedan för att lägga till en röst på ditt konto. Du kan välja mellan antingen “Instant Voice Cloning” eller “Customize Your Own Voice”.

I den efterföljande gränssnittsrutan tilldelar du en moniker till den visade ramen.

Vänligen bifoga en fil för analys genom att klicka och dra den till detta fält, upp till 25 filer kan laddas upp samtidigt för att öka precisionen.

⭐ Klicka på Etiketter och ange en nyckel \\+ värde (t.ex. Accent/Brittisk)- gör detta upp till 5 gånger /sv/images/muo-tech-explained-elevenlabs-speech-ai-voice-cloning.jpg

Inmatningen ger instruktioner för användare att beskriva sina önskade vokala egenskaper på ett koncist sätt, såsom tonhöjd, ton och volym, genom att ange en kort fras eller mening som fångar essensen av det avsedda ljudet.

Läs igenom och bekräfta användarvillkoren innan du fortsätter att lägga till röstinmatningsfunktionen genom att markera kryssrutan “Bekräftelse av samtycke” och sedan klicka på “Lägg till röst”.

När man har införlivat en röstkomponent kan man finjustera dess egenskaper i talsyntesgränssnittet, som tidigare nämnts.

Vad kan man göra med en AI-röst?

De potentiella tillämpningarna av att använda redan existerande och replikerade vokaliseringar i artificiell intelligens är enorma, vilket framgår av ElevenLabs slutmål att konvertera språk i realtid. Företaget har dock också erkänt att det finns en mängd alternativa användningsområden.

Ljudböcker, som kan berättas av en berömd filmskådespelare från förr, diskuteras ofta tillsammans med videospel som använder artificiell intelligens för talad dialog och därmed eliminerar behovet av mänskliga röstskådespelare. De potentiella tillämpningarna sträcker sig dock långt bortom dessa områden och omfattar bland annat genrer som musik, satir och självförbättringslitteratur.

Man kan skapa en podcast med hjälp av artificiell intelligensgenererat tal, men resultatet kan bli oengagerande och monotont.

Det inledande segmentet för ett av våra podcastavsnitt, med titeln “Really Useful Podcast”, har skapats med hjälp av de tjänster som tillhandahålls av ElevenLabs.

Trots de mindre optimala resultaten anses resultatet vara acceptabelt för praktisk tillämpning, och det finns gott om utrymme för tekniska framsteg i framtiden.

ElevenLabs har dessutom uttryckt planer på att utveckla en innovativ funktion för “genererade röstsamtal” som kommer att lanseras inom en snar framtid.

Använd din röst på ett nytt sätt med ElevenLabs™ Speech AI

Artificiell intelligens har bidragit till att ge oss en uppsjö av anmärkningsvärda innovationer på senare tid. Chat-GPT erbjuder till exempel mångsidig funktionalitet för att generera text, svara på frågor, skriva sammanfattningar och mycket mer. Dessutom sticker Midjourney ut som en exceptionell kreativ plattform som använder AI-teknik för att generera visuella konstverk inspirerade av användarinmatning.

Det innovativa Speech AI Tool som utvecklats av ElevenLabs effektiviserar processen för röstmanipulation och skapar en sömlös imitation av den ursprungliga talarens ton och böjning. Med denna avancerade teknik kan användarna skapa övertygande ljudkloner som är mycket lika talarens unika röstegenskaper.

Att använda röstteknik väcker etiska frågor om att inhämta samtycke från individer innan den används, men det är också en extraordinär metod med flera spännande möjligheter. Den mest anmärkningsvärda aspekten av denna teknik är dess användarvänlighet och anmärkningsvärda effektivitet.