วิธีสร้างเสียง AI ที่ฟังดูเหมือนคุณด้วย ElevenLabs

Alicia Brunner included in Technology Explained Artificial Intelligence

2023-09-15 321 words 2 minutes

Contents

Geneative AI และ Deepfakes ขัดแย้งกับการพัฒนาเครื่องมือเสียงของ AI แนวคิดนี้ง่ายมาก: คุณใช้เสียงและจัดการให้พูดตามคำที่คุณให้ไว้

เครื่องมือปัญญาประดิษฐ์ของ ElevenLabs โดดเด่นในฐานะผู้นำในหมวดหมู่นี้โดยเสนอทั้งแผนการใช้งานฟรีและทางเลือกระดับพรีเมียมที่ได้รับการยกย่องอย่างสูง

ElevenLabs คืออะไร?

ElevenLabs เป็นบริษัทวิจัยเทคโนโลยีเสียงซึ่งก่อตั้งโดยอดีตผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิงของ Google และอดีตผู้เชี่ยวชาญด้านการติดตั้ง Palantir แนวทางหลักของพวกเขาคือการพัฒนาซอฟต์แวร์รู้จำคำพูดขั้นสูง ซึ่งท้ายที่สุดแล้วพยายามที่จะอำนวยความสะดวกในการแปลคำพูดในภาษาต่างๆ แบบเรียลไทม์ได้อย่างราบรื่น

Voice AI ของ ElevenLabs เป็นระบบการอ่านออกเสียงข้อความขั้นสูงที่สามารถสร้างเสียงมนุษย์ที่สมจริงได้สูง เว็บไซต์ของบริษัทประกาศจุดประสงค์ในการให้ความช่วยเหลือด้านเสียงหลายภาษาที่สามารถเข้าถึงได้ในภาคส่วนต่างๆ เช่น การศึกษา บริการสตรีมมิ่ง หนังสือเสียง เกม ภาพยนตร์ และแม้แต่การสื่อสารแบบเรียลไทม์

เครื่องมือแปลภาษาขั้นสูง เช่น Google Translate หรือเครื่องมือทดแทนมีคุณค่าอย่างมากในการอำนวยความสะดวกในการสื่อสารข้ามอุปสรรคทางภาษา อย่างไรก็ตาม ขณะนี้ยังไม่มีเทคโนโลยีที่สามารถแปลคำพูดจากภาษาหนึ่งไปยังอีกภาษาหนึ่งได้อย่างแม่นยำในทันที อย่างไรก็ตาม การพัฒนาระบบที่สามารถจับและแปลงภาษาพูดได้อย่างถูกต้องถือเป็นขั้นตอนสำคัญในการบรรลุวัตถุประสงค์นี้ ด้วยการจำลองจังหวะ น้ำเสียง และการออกเสียงของผู้พูดดั้งเดิม ระบบดังกล่าวสามารถถ่ายทอดความหมายที่ตั้งใจไว้ของข้อความได้อย่างมีประสิทธิภาพ ซึ่งจะช่วยปรับปรุงความเข้าใจและการสื่อสารข้ามภาษา

การสร้างเสียง AI คืออะไร?

การสร้างเสียงที่ขับเคลื่อนด้วย AI ช่วยให้ผู้ใช้สามารถสร้างคำพูดที่กำหนดเองได้โดยการเลือกโทนเสียงที่ต้องการและป้อนเนื้อหาที่เป็นข้อความ โดยเทคโนโลยีจะสร้างเอาต์พุตเสียงพูดโดยอัตโนมัติซึ่งสะท้อนถึงพารามิเตอร์ที่ระบุ

แท้จริงแล้ว แม้ว่าเทคโนโลยีการสังเคราะห์เสียงพูดในยุคแรกๆ เช่น Microsoft Sam สามารถสร้างเสียงที่เหมือนมนุษย์ได้ในช่วงทศวรรษ 1990 แต่ก็ยังขาดความเป็นธรรมชาติและความถูกต้องในระดับที่สำคัญเมื่อเปรียบเทียบกับระบบการอ่านออกเสียงข้อความสมัยใหม่ ในทางตรงกันข้าม โซลูชันที่เป็นนวัตกรรมของ ElevenLabs แสดงให้เห็นระดับของความคล่องแคล่วทางภาษาและการแสดงออกซึ่งสอดคล้องกับความแตกต่างและรายละเอียดปลีกย่อยในการสื่อสารของมนุษย์อย่างใกล้ชิดมากขึ้น

ElevenLabs มีตัวเลือก AI คำพูดที่หลากหลาย รวมถึงเสียง"ที่สร้างไว้ล่วงหน้า"ฟรี ซึ่งใช้งานได้โดยไม่มีค่าใช้จ่าย ตลอดจนเครื่องกำเนิดเสียง AI ที่ให้ผู้ใช้ปรับแต่งพารามิเตอร์ เช่น เพศ อายุ และภาษาถิ่นได้โดยมีค่าธรรมเนียม นอกจากนี้ พวกเขายังมีเสียง"โคลน"ระดับพรีเมียมผ่านบริการสมัครสมาชิกที่ให้ผู้ใช้สามารถอัปโหลดเสียง AI ส่วนตัวของตนเองได้

นี่คือตัวอย่าง:

การใช้ปัญญาประดิษฐ์ในความพยายามสร้างสรรค์ต้องอาศัยภาระผูกพันทางศีลธรรมและจริยธรรมบางประการ รวมถึงการสร้างเอาต์พุตเสียงโดยใช้เทคโนโลยี AI คำพูดของ ElevenLabs ซึ่งจะต้องได้รับการพิจารณาและจัดการอย่างขยันขันแข็ง

โดยพื้นฐานแล้ว ขอแนะนำให้ขอความยินยอมก่อนที่จะใช้การเปล่งเสียงของบุคคลอื่น แม้ว่าการกระทำดังกล่าวอาจไม่ได้ถูกห้ามตามกฎหมาย แต่ก็อาจกระตุ้นให้เกิดความรู้สึกไม่พอใจหรือไม่พอใจจากบุคคลที่เกี่ยวข้องได้

โปรดทราบว่าเมื่อเนื้อหานี้ถูกสร้างขึ้น เทคโนโลยีปัญญาประดิษฐ์ในการพูดของ ElevenLabs ยังอยู่ในช่วงเบต้า ดังนั้นจึงยังไม่ได้รับการพัฒนาและปรับปรุงอย่างเต็มที่

การสร้างบทสนทนา AI ขั้นพื้นฐาน

วิธีการหนึ่งที่ตรงไปตรงมาในการเริ่มต้นกระบวนการคือการใช้ยูทิลิตี้ปัญญาประดิษฐ์แบบพูดฟรีที่ ElevenLabs มอบให้

หากต้องการใช้สิ่งนี้ ให้ไปที่ beta.elevenlabs.io และสร้างบัญชี (คุณสามารถใช้อีเมล บัญชี Google หรือ Facebook ของคุณเองได้)

ต่อไป:

⭐การสังเคราะห์เสียงคลิก

ในเมนู"การตั้งค่า"คุณสามารถเลือกจากตัวเลือกเสียงที่มีอยู่แล้วมากมาย รวมถึงตัวเลือกทั้งชายและหญิง

⭐ ขยายการตั้งค่าเสียงเพื่อตั้งค่าความเสถียรและความชัดเจน \+ การเพิ่มประสิทธิภาพความคล้ายคลึงกัน (ความเสถียรสูงเป็นแบบโมโนโทน ความชัดเจนสูงใกล้กับเสียงที่ต้องการ) แถบเลื่อน

⭐SelectEleven ภาษาเดียว (ภาษาอังกฤษมาตรฐาน)

ป้อนข้อความที่คุณต้องการแปลงเป็นคำพูด"นี่คือคำสั่งที่สั่งให้ผู้ใช้ป้อนข้อความที่ต้องการให้พูดออกเสียงโดยใช้เทคโนโลยีแปลงข้อความเป็นคำพูด ผู้ใช้สามารถป้อนเนื้อหาที่เป็นลายลักษณ์อักษรประเภทใดก็ได้ เช่น ประโยคหรือย่อหน้า และแปลงเป็นรูปแบบเสียงสำหรับการเล่น

⭐ คลิกสร้าง

เมื่อเสร็จสิ้นกระบวนการ วิดีโอจะเล่นโดยอัตโนมัติ หากไม่เกิดขึ้น กรุณาคลิกที่"เล่น"เพื่อเริ่มวิดีโอ

คุณยังสามารถดาวน์โหลดตัวอย่างที่สร้างขึ้นได้

วิธีสร้างเสียง AI ด้วย ElevenLabs

หากใครต้องการสร้างสไตล์เสียงร้องที่เป็นนวัตกรรมใหม่ พวกเขาอาจใช้ตัวเลือก"เพิ่มเสียง"เพื่อนำทางไปยังอินเทอร์เฟซ"VoiceLab"หรืออาจเลือกที่จะสร้างโทนเสียงใหม่โดยใช้พารามิเตอร์เสียงที่กำหนดไว้ล่วงหน้าของ ElevenLabs

⭐ คลิกเพิ่มเสียง > การออกแบบเสียง

โปรดตั้งค่าเพศ ช่วงอายุ และสำเนียงสำหรับการบันทึกเสียงพากย์ตัวละครของคุณโดยกรอกข้อมูลในช่องที่เกี่ยวข้องด้านล่าง

ปรับแถบเลื่อนความแรงของสำเนียงตามความต้องการของคุณ เพื่อให้มั่นใจว่าตรงตามข้อกำหนดเฉพาะและการกำหนดลักษณะของคุณเพื่อการออกเสียงคำในภาษาต่างประเทศที่แม่นยำ

กระบวนการแปลงข้อความจากภาษาหนึ่งเป็นอีกภาษาหนึ่งเรียกว่าการแปล การแปลเกี่ยวข้องมากกว่าการแทนที่คำในภาษาหนึ่งด้วยคำที่เทียบเท่าในภาษาอื่น จำเป็นต้องมีความเข้าใจในบริบท วัฒนธรรม และความแตกต่างของทั้งสองภาษาที่เกี่ยวข้อง เพื่อให้แน่ใจว่าข้อความที่แปลสามารถสื่อความหมายที่ต้องการของข้อความต้นฉบับได้อย่างถูกต้อง ขณะเดียวกันก็เหมาะสมกับกลุ่มเป้าหมายด้วย นักแปลที่มีทักษะได้รับการฝึกอบรมให้จดจำการอ้างอิงทางวัฒนธรรม สำนวน ภาษาพูด และคุณลักษณะทางภาษาอื่นๆ ที่เฉพาะเจาะจงสำหรับแต่ละภาษาที่พวกเขาทำงานด้วย พวกเขาใช้เครื่องมือซอฟต์แวร์พิเศษและเอกสารอ้างอิงเพื่อรับรองความถูกต้องและสม่ำเสมอตลอดกระบวนการแปล

⭐ คลิกสร้าง

⭐เมื่อเสร็จแล้วลองฟังได้เลย

จากการตรวจสอบ พบว่าสำเนียงทั้งเพศหญิง/เด็ก/ออสเตรเลีย และสำเนียงชาย/แก่/ออสเตรเลีย แสดงออกถึงคุณภาพ"อเมริกัน"ที่มองเห็นได้ แม้ว่าสิ่งนี้อาจแสดงออกมาในรูปแบบที่ไม่สอดคล้องกัน แต่ก็สามารถคาดหวังได้ว่าสามารถแก้ไขได้ด้วยความก้าวหน้าทางเทคโนโลยี

สร้างเสียงของคุณเองใน AI

สิ่งที่น่าสนใจของเทคโนโลยีของ ElevenLabs อยู่ที่ฟีเจอร์ Instant Voice Cloning ที่เป็นนวัตกรรมใหม่ ซึ่งนำเสนอตัวเลือกทั้งที่กำหนดค่าไว้ล่วงหน้าและปรับแต่งได้สำหรับการสร้างเสียง

การสมัครรับ Instant Voice Cloning จะต้องเสียค่าธรรมเนียมซ้ำซึ่งจำเป็นต้องสมัครสมาชิก เราเสนอระดับราคาหลายระดับ โดยมีแผนบริการที่เหมาะสมที่สุด โดยคุณจะได้รับเงินคืน 5 ดอลลาร์ต่อเดือน อย่างไรก็ตาม ในปัจจุบัน เรามีความยินดีที่จะมอบโปรโมชั่นที่น่าดึงดูดให้กับลูกค้าใหม่ โดยลดอัตรามาตรฐานของเราลง 80% ดังนั้นค่าใช้จ่ายเริ่มต้นของคุณจะเป็นเพียง $1 ในช่วงแนะนำ

ทางเลือกเพิ่มเติมมีราคาอยู่ที่ 22 ดอลลาร์, 99 ดอลลาร์ และ 330 ดอลลาร์ เป็นประจำ โดยแต่ละทางเลือกสามารถผลิตเนื้อหาเสียงได้นานถึง 40 ชั่วโมงต่อเดือน

หากต้องการใช้เทคโนโลยีโคลนเสียงที่ ElevenLabs มอบให้ คุณต้องจัดให้มีการแลกเปลี่ยนด้วยวาจาพร้อมกับบันทึกเสียงพูดของคุณเอง จำเป็นอย่างยิ่งที่บทสนทนาจะต้องเข้าใจง่ายและบันทึกในรูปแบบไฟล์ MP3 เพื่อผลลัพธ์ที่ดีที่สุด แนะนำให้ใช้คลิปเสียงที่ยาวกว่านี้ โดยมีความยาวสูงสุดห้านาที

จากหน้าจอ VoiceLab:

โปรดเลือกตัวเลือกใดตัวเลือกหนึ่งด้านล่างเพื่อเพิ่มเสียงให้กับบัญชีของคุณ คุณสามารถเลือกระหว่าง"การโคลนเสียงทันที"หรือ"ปรับแต่งเสียงของคุณเอง"

ในบานหน้าต่างอินเทอร์เฟซที่ตามมา ให้กำหนดชื่อเล่นให้กับเฟรมที่แสดง

กรุณาจัดเตรียมไฟล์สำหรับการวิเคราะห์โดยการคลิกและลากไปยังฟิลด์นี้ โดยสามารถอัปโหลดได้สูงสุด 25 ไฟล์พร้อมกันเพื่อเพิ่มความแม่นยำ

⭐ คลิกป้ายกำกับแล้วระบุค่าคีย์ \+ (เช่น สำเนียง/อังกฤษ) – ทำได้สูงสุด 5 ครั้ง

ข้อมูลอินพุตจะให้คำแนะนำสำหรับผู้ใช้ในการอธิบายคุณลักษณะเสียงที่ต้องการโดยกระชับ เช่น ระดับเสียง โทนเสียง และระดับเสียง โดยการป้อนวลีหรือประโยคสั้นๆ ที่รวบรวมแก่นแท้ของเสียงที่ต้องการ

โปรดตรวจสอบและรับทราบข้อกำหนดในการให้บริการก่อนดำเนินการเพิ่มฟังก์ชันการป้อนข้อมูลด้วยเสียงโดยเลือกช่องทำเครื่องหมาย"ยืนยันความยินยอม"แล้วคลิก"เพิ่มเสียง"

เมื่อรวมองค์ประกอบเสียงร้องเข้าด้วยกัน เราสามารถปรับคุณลักษณะของมันอย่างละเอียดภายในอินเทอร์เฟซการสังเคราะห์เสียงพูดดังที่กล่าวไว้ก่อนหน้านี้

คุณสามารถทำอะไรด้วยเสียง AI ได้บ้าง?

การประยุกต์ใช้ที่เป็นไปได้ในการใช้การเปล่งเสียงที่มีอยู่แล้วและทำซ้ำในปัญญาประดิษฐ์นั้นมีมากมาย ตามที่ระบุโดยวัตถุประสงค์สูงสุดของ ElevenLabs ในการแปลงภาษาแบบเรียลไทม์ อย่างไรก็ตาม บริษัทยังได้รับทราบถึงการใช้ประโยชน์ทางเลือกอื่นๆ มากมาย

หนังสือเสียงซึ่งอาจบรรยายโดยบุคคลสำคัญในโรงภาพยนตร์ในอดีต มักถูกพูดถึงควบคู่ไปกับวิดีโอเกมที่ใช้ปัญญาประดิษฐ์ในการสนทนา ดังนั้นจึงไม่จำเป็นต้องใช้นักพากย์เสียงมนุษย์อีกต่อไป อย่างไรก็ตาม การนำไปประยุกต์ใช้ที่เป็นไปได้นั้นขยายไปไกลกว่าขอบเขตเหล่านี้ ครอบคลุมแนวเพลง เช่น ดนตรี การเสียดสี และวรรณกรรมเกี่ยวกับการพัฒนาตนเอง และอื่นๆ อีกมากมาย

หนึ่งอาจสร้างพอดแคสต์โดยใช้คำพูดที่สร้างโดยปัญญาประดิษฐ์ อย่างไรก็ตาม ผลลัพธ์ที่ได้อาจแสดงคุณภาพที่ไม่น่าสนใจและซ้ำซากจำเจ

ส่วนแนะนำสำหรับตอนพอดแคสต์ตอนหนึ่งของเราซึ่งมีชื่อว่า"พอดแคสต์ที่มีประโยชน์จริงๆ"ได้รับการสร้างสรรค์ขึ้นโดยใช้บริการของ ElevenLabs

แม้ว่าผลลัพธ์จะน้อยกว่าผลลัพธ์ที่ดีที่สุด แต่ผลลัพธ์ก็ถือว่าเป็นที่ยอมรับสำหรับการใช้งานจริง และยังมีช่องว่างเพียงพอสำหรับความก้าวหน้าทางเทคโนโลยีในอนาคต

นอกจากนี้ ElevenLabs ยังได้แสดงแผนสำหรับการพัฒนาฟีเจอร์"การสนทนาด้วยเสียงที่สร้างขึ้น"ที่เป็นนวัตกรรมใหม่ ซึ่งจะเปิดตัวในอนาคตอันใกล้นี้

ใช้เสียงของคุณในรูปแบบใหม่ด้วย ElevenLabs €™ Speech AI

ปัญญาประดิษฐ์มีส่วนสำคัญในการมอบนวัตกรรมที่น่าทึ่งมากมายให้กับเราในช่วงไม่กี่ครั้งที่ผ่านมานี้ ตัวอย่างเช่น Chat-GPT มีฟังก์ชันที่หลากหลายสำหรับการสร้างข้อความ ตอบคำถาม เขียนสรุป และอื่นๆ อีกมากมาย นอกจากนี้ Midjourney ยังโดดเด่นในฐานะแพลตฟอร์มสร้างสรรค์ที่โดดเด่นที่ใช้เทคโนโลยี AI เพื่อสร้างงานศิลปะภาพที่ได้รับแรงบันดาลใจจากข้อมูลของผู้ใช้

เครื่องมือ Speech AI ที่เป็นนวัตกรรมใหม่ที่พัฒนาโดย ElevenLabs จะช่วยปรับปรุงกระบวนการจัดการเสียง และสร้างการเลียนแบบน้ำเสียงและการผันคำของผู้พูดต้นฉบับได้อย่างราบรื่น เทคโนโลยีขั้นสูงนี้ช่วยให้ผู้ใช้สามารถสร้างโคลนเสียงที่น่าเชื่อซึ่งใกล้เคียงกับลักษณะเสียงร้องอันเป็นเอกลักษณ์ของผู้พูด

การใช้เทคโนโลยีเสียงทำให้เกิดข้อกังวลด้านจริยธรรมเกี่ยวกับการได้รับความยินยอมจากบุคคลก่อนการใช้งาน แต่ก็นำเสนอวิธีการพิเศษที่มีศักยภาพที่น่าสนใจหลายประการ สิ่งสำคัญที่สุดของเทคนิคนี้คือความเป็นมิตรต่อผู้ใช้และมีประสิทธิภาพที่โดดเด่น