วิธีสร้างเสียง AI ที่ฟังดูเหมือนคุณด้วย ElevenLabs
Geneative AI และ Deepfakes ขัดแย้งกับการพัฒนาเครื่องมือเสียงของ AI แนวคิดนี้ง่ายมาก: คุณใช้เสียงและจัดการให้พูดตามคำที่คุณให้ไว้
เครื่องมือปัญญาประดิษฐ์ของ ElevenLabs โดดเด่นในฐานะผู้นำในหมวดหมู่นี้โดยเสนอทั้งแผนการใช้งานฟรีและทางเลือกระดับพรีเมียมที่ได้รับการยกย่องอย่างสูง
ElevenLabs คืออะไร?
ElevenLabs เป็นบริษัทวิจัยเทคโนโลยีเสียงซึ่งก่อตั้งโดยอดีตผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิงของ Google และอดีตผู้เชี่ยวชาญด้านการติดตั้ง Palantir แนวทางหลักของพวกเขาคือการพัฒนาซอฟต์แวร์รู้จำคำพูดขั้นสูง ซึ่งท้ายที่สุดแล้วพยายามที่จะอำนวยความสะดวกในการแปลคำพูดในภาษาต่างๆ แบบเรียลไทม์ได้อย่างราบรื่น
Voice AI ของ ElevenLabs เป็นระบบการอ่านออกเสียงข้อความขั้นสูงที่สามารถสร้างเสียงมนุษย์ที่สมจริงได้สูง เว็บไซต์ของบริษัทประกาศจุดประสงค์ในการให้ความช่วยเหลือด้านเสียงหลายภาษาที่สามารถเข้าถึงได้ในภาคส่วนต่างๆ เช่น การศึกษา บริการสตรีมมิ่ง หนังสือเสียง เกม ภาพยนตร์ และแม้แต่การสื่อสารแบบเรียลไทม์
เครื่องมือแปลภาษาขั้นสูง เช่น Google Translate หรือเครื่องมือทดแทนมีคุณค่าอย่างมากในการอำนวยความสะดวกในการสื่อสารข้ามอุปสรรคทางภาษา อย่างไรก็ตาม ขณะนี้ยังไม่มีเทคโนโลยีที่สามารถแปลคำพูดจากภาษาหนึ่งไปยังอีกภาษาหนึ่งได้อย่างแม่นยำในทันที อย่างไรก็ตาม การพัฒนาระบบที่สามารถจับและแปลงภาษาพูดได้อย่างถูกต้องถือเป็นขั้นตอนสำคัญในการบรรลุวัตถุประสงค์นี้ ด้วยการจำลองจังหวะ น้ำเสียง และการออกเสียงของผู้พูดดั้งเดิม ระบบดังกล่าวสามารถถ่ายทอดความหมายที่ตั้งใจไว้ของข้อความได้อย่างมีประสิทธิภาพ ซึ่งจะช่วยปรับปรุงความเข้าใจและการสื่อสารข้ามภาษา
การสร้างเสียง AI คืออะไร?
การสร้างเสียงที่ขับเคลื่อนด้วย AI ช่วยให้ผู้ใช้สามารถสร้างคำพูดที่กำหนดเองได้โดยการเลือกโทนเสียงที่ต้องการและป้อนเนื้อหาที่เป็นข้อความ โดยเทคโนโลยีจะสร้างเอาต์พุตเสียงพูดโดยอัตโนมัติซึ่งสะท้อนถึงพารามิเตอร์ที่ระบุ
แท้จริงแล้ว แม้ว่าเทคโนโลยีการสังเคราะห์เสียงพูดในยุคแรกๆ เช่น Microsoft Sam สามารถสร้างเสียงที่เหมือนมนุษย์ได้ในช่วงทศวรรษ 1990 แต่ก็ยังขาดความเป็นธรรมชาติและความถูกต้องในระดับที่สำคัญเมื่อเปรียบเทียบกับระบบการอ่านออกเสียงข้อความสมัยใหม่ ในทางตรงกันข้าม โซลูชันที่เป็นนวัตกรรมของ ElevenLabs แสดงให้เห็นระดับของความคล่องแคล่วทางภาษาและการแสดงออกซึ่งสอดคล้องกับความแตกต่างและรายละเอียดปลีกย่อยในการสื่อสารของมนุษย์อย่างใกล้ชิดมากขึ้น
ElevenLabs มีตัวเลือก AI คำพูดที่หลากหลาย รวมถึงเสียง"ที่สร้างไว้ล่วงหน้า"ฟรี ซึ่งใช้งานได้โดยไม่มีค่าใช้จ่าย ตลอดจนเครื่องกำเนิดเสียง AI ที่ให้ผู้ใช้ปรับแต่งพารามิเตอร์ เช่น เพศ อายุ และภาษาถิ่นได้โดยมีค่าธรรมเนียม นอกจากนี้ พวกเขายังมีเสียง"โคลน"ระดับพรีเมียมผ่านบริการสมัครสมาชิกที่ให้ผู้ใช้สามารถอัปโหลดเสียง AI ส่วนตัวของตนเองได้
นี่คือตัวอย่าง:
การใช้ปัญญาประดิษฐ์ในความพยายามสร้างสรรค์ต้องอาศัยภาระผูกพันทางศีลธรรมและจริยธรรมบางประการ รวมถึงการสร้างเอาต์พุตเสียงโดยใช้เทคโนโลยี AI คำพูดของ ElevenLabs ซึ่งจะต้องได้รับการพิจารณาและจัดการอย่างขยันขันแข็ง
โดยพื้นฐานแล้ว ขอแนะนำให้ขอความยินยอมก่อนที่จะใช้การเปล่งเสียงของบุคคลอื่น แม้ว่าการกระทำดังกล่าวอาจไม่ได้ถูกห้ามตามกฎหมาย แต่ก็อาจกระตุ้นให้เกิดความรู้สึกไม่พอใจหรือไม่พอใจจากบุคคลที่เกี่ยวข้องได้
โปรดทราบว่าเมื่อเนื้อหานี้ถูกสร้างขึ้น เทคโนโลยีปัญญาประดิษฐ์ในการพูดของ ElevenLabs ยังอยู่ในช่วงเบต้า ดังนั้นจึงยังไม่ได้รับการพัฒนาและปรับปรุงอย่างเต็มที่
การสร้างบทสนทนา AI ขั้นพื้นฐาน
วิธีการหนึ่งที่ตรงไปตรงมาในการเริ่มต้นกระบวนการคือการใช้ยูทิลิตี้ปัญญาประดิษฐ์แบบพูดฟรีที่ ElevenLabs มอบให้
หากต้องการใช้สิ่งนี้ ให้ไปที่ beta.elevenlabs.io และสร้างบัญชี (คุณสามารถใช้อีเมล บัญชี Google หรือ Facebook ของคุณเองได้)
ต่อไป:
⭐การสังเคราะห์เสียงคลิก
ในเมนู"การตั้งค่า"คุณสามารถเลือกจากตัวเลือกเสียงที่มีอยู่แล้วมากมาย รวมถึงตัวเลือกทั้งชายและหญิง
⭐ ขยายการตั้งค่าเสียงเพื่อตั้งค่าความเสถียรและความชัดเจน \+ การเพิ่มประสิทธิภาพความคล้ายคลึงกัน (ความเสถียรสูงเป็นแบบโมโนโทน ความชัดเจนสูงใกล้กับเสียงที่ต้องการ) แถบเลื่อน
⭐SelectEleven ภาษาเดียว (ภาษาอังกฤษมาตรฐาน)
ป้อนข้อความที่คุณต้องการแปลงเป็นคำพูด"นี่คือคำสั่งที่สั่งให้ผู้ใช้ป้อนข้อความที่ต้องการให้พูดออกเสียงโดยใช้เทคโนโลยีแปลงข้อความเป็นคำพูด ผู้ใช้สามารถป้อนเนื้อหาที่เป็นลายลักษณ์อักษรประเภทใดก็ได้ เช่น ประโยคหรือย่อหน้า และแปลงเป็นรูปแบบเสียงสำหรับการเล่น
⭐ คลิกสร้าง
เมื่อเสร็จสิ้นกระบวนการ วิดีโอจะเล่นโดยอัตโนมัติ หากไม่เกิดขึ้น กรุณาคลิกที่"เล่น"เพื่อเริ่มวิดีโอ
คุณยังสามารถดาวน์โหลดตัวอย่างที่สร้างขึ้นได้
วิธีสร้างเสียง AI ด้วย ElevenLabs
หากใครต้องการสร้างสไตล์เสียงร้องที่เป็นนวัตกรรมใหม่ พวกเขาอาจใช้ตัวเลือก"เพิ่มเสียง"เพื่อนำทางไปยังอินเทอร์เฟซ"VoiceLab"หรืออาจเลือกที่จะสร้างโทนเสียงใหม่โดยใช้พารามิเตอร์เสียงที่กำหนดไว้ล่วงหน้าของ ElevenLabs
⭐ คลิกเพิ่มเสียง > การออกแบบเสียง
โปรดตั้งค่าเพศ ช่วงอายุ และสำเนียงสำหรับการบันทึกเสียงพากย์ตัวละครของคุณโดยกรอกข้อมูลในช่องที่เกี่ยวข้องด้านล่าง
ปรับแถบเลื่อนความแรงของสำเนียงตามความต้องการของคุณ เพื่อให้มั่นใจว่าตรงตามข้อกำหนดเฉพาะและการกำหนดลักษณะของคุณเพื่อการออกเสียงคำในภาษาต่างประเทศที่แม่นยำ
กระบวนการแปลงข้อความจากภาษาหนึ่งเป็นอีกภาษาหนึ่งเรียกว่าการแปล การแปลเกี่ยวข้องมากกว่าการแทนที่คำในภาษาหนึ่งด้วยคำที่เทียบเท่าในภาษาอื่น จำเป็นต้องมีความเข้าใจในบริบท วัฒนธรรม และความแตกต่างของทั้งสองภาษาที่เกี่ยวข้อง เพื่อให้แน่ใจว่าข้อความที่แปลสามารถสื่อความหมายที่ต้องการของข้อความต้นฉบับได้อย่างถูกต้อง ขณะเดียวกันก็เหมาะสมกับกลุ่มเป้าหมายด้วย นักแปลที่มีทักษะได้รับการฝึกอบรมให้จดจำการอ้างอิงทางวัฒนธรรม สำนวน ภาษาพูด และคุณลักษณะทางภาษาอื่นๆ ที่เฉพาะเจาะจงสำหรับแต่ละภาษาที่พวกเขาทำงานด้วย พวกเขาใช้เครื่องมือซอฟต์แวร์พิเศษและเอกสารอ้างอิงเพื่อรับรองความถูกต้องและสม่ำเสมอตลอดกระบวนการแปล
⭐ คลิกสร้าง
⭐เมื่อเสร็จแล้วลองฟังได้เลย
จากการตรวจสอบ พบว่าสำเนียงทั้งเพศหญิง/เด็ก/ออสเตรเลีย และสำเนียงชาย/แก่/ออสเตรเลีย แสดงออกถึงคุณภาพ"อเมริกัน"ที่มองเห็นได้ แม้ว่าสิ่งนี้อาจแสดงออกมาในรูปแบบที่ไม่สอดคล้องกัน แต่ก็สามารถคาดหวังได้ว่าสามารถแก้ไขได้ด้วยความก้าวหน้าทางเทคโนโลยี
สร้างเสียงของคุณเองใน AI
สิ่งที่น่าสนใจของเทคโนโลยีของ ElevenLabs อยู่ที่ฟีเจอร์ Instant Voice Cloning ที่เป็นนวัตกรรมใหม่ ซึ่งนำเสนอตัวเลือกทั้งที่กำหนดค่าไว้ล่วงหน้าและปรับแต่งได้สำหรับการสร้างเสียง
การสมัครรับ Instant Voice Cloning จะต้องเสียค่าธรรมเนียมซ้ำซึ่งจำเป็นต้องสมัครสมาชิก เราเสนอระดับราคาหลายระดับ โดยมีแผนบริการที่เหมาะสมที่สุด โดยคุณจะได้รับเงินคืน 5 ดอลลาร์ต่อเดือน อย่างไรก็ตาม ในปัจจุบัน เรามีความยินดีที่จะมอบโปรโมชั่นที่น่าดึงดูดให้กับลูกค้าใหม่ โดยลดอัตรามาตรฐานของเราลง 80% ดังนั้นค่าใช้จ่ายเริ่มต้นของคุณจะเป็นเพียง $1 ในช่วงแนะนำ
ทางเลือกเพิ่มเติมมีราคาอยู่ที่ 22 ดอลลาร์, 99 ดอลลาร์ และ 330 ดอลลาร์ เป็นประจำ โดยแต่ละทางเลือกสามารถผลิตเนื้อหาเสียงได้นานถึง 40 ชั่วโมงต่อเดือน
หากต้องการใช้เทคโนโลยีโคลนเสียงที่ ElevenLabs มอบให้ คุณต้องจัดให้มีการแลกเปลี่ยนด้วยวาจาพร้อมกับบันทึกเสียงพูดของคุณเอง จำเป็นอย่างยิ่งที่บทสนทนาจะต้องเข้าใจง่ายและบันทึกในรูปแบบไฟล์ MP3 เพื่อผลลัพธ์ที่ดีที่สุด แนะนำให้ใช้คลิปเสียงที่ยาวกว่านี้ โดยมีความยาวสูงสุดห้านาที
จากหน้าจอ VoiceLab:
โปรดเลือกตัวเลือกใดตัวเลือกหนึ่งด้านล่างเพื่อเพิ่มเสียงให้กับบัญชีของคุณ คุณสามารถเลือกระหว่าง"การโคลนเสียงทันที"หรือ"ปรับแต่งเสียงของคุณเอง"
ในบานหน้าต่างอินเทอร์เฟซที่ตามมา ให้กำหนดชื่อเล่นให้กับเฟรมที่แสดง
กรุณาจัดเตรียมไฟล์สำหรับการวิเคราะห์โดยการคลิกและลากไปยังฟิลด์นี้ โดยสามารถอัปโหลดได้สูงสุด 25 ไฟล์พร้อมกันเพื่อเพิ่มความแม่นยำ
⭐ คลิกป้ายกำกับแล้วระบุค่าคีย์ \+ (เช่น สำเนียง/อังกฤษ) – ทำได้สูงสุด 5 ครั้ง
ข้อมูลอินพุตจะให้คำแนะนำสำหรับผู้ใช้ในการอธิบายคุณลักษณะเสียงที่ต้องการโดยกระชับ เช่น ระดับเสียง โทนเสียง และระดับเสียง โดยการป้อนวลีหรือประโยคสั้นๆ ที่รวบรวมแก่นแท้ของเสียงที่ต้องการ
โปรดตรวจสอบและรับทราบข้อกำหนดในการให้บริการก่อนดำเนินการเพิ่มฟังก์ชันการป้อนข้อมูลด้วยเสียงโดยเลือกช่องทำเครื่องหมาย"ยืนยันความยินยอม"แล้วคลิก"เพิ่มเสียง"
เมื่อรวมองค์ประกอบเสียงร้องเข้าด้วยกัน เราสามารถปรับคุณลักษณะของมันอย่างละเอียดภายในอินเทอร์เฟซการสังเคราะห์เสียงพูดดังที่กล่าวไว้ก่อนหน้านี้
คุณสามารถทำอะไรด้วยเสียง AI ได้บ้าง?
การประยุกต์ใช้ที่เป็นไปได้ในการใช้การเปล่งเสียงที่มีอยู่แล้วและทำซ้ำในปัญญาประดิษฐ์นั้นมีมากมาย ตามที่ระบุโดยวัตถุประสงค์สูงสุดของ ElevenLabs ในการแปลงภาษาแบบเรียลไทม์ อย่างไรก็ตาม บริษัทยังได้รับทราบถึงการใช้ประโยชน์ทางเลือกอื่นๆ มากมาย
หนังสือเสียงซึ่งอาจบรรยายโดยบุคคลสำคัญในโรงภาพยนตร์ในอดีต มักถูกพูดถึงควบคู่ไปกับวิดีโอเกมที่ใช้ปัญญาประดิษฐ์ในการสนทนา ดังนั้นจึงไม่จำเป็นต้องใช้นักพากย์เสียงมนุษย์อีกต่อไป อย่างไรก็ตาม การนำไปประยุกต์ใช้ที่เป็นไปได้นั้นขยายไปไกลกว่าขอบเขตเหล่านี้ ครอบคลุมแนวเพลง เช่น ดนตรี การเสียดสี และวรรณกรรมเกี่ยวกับการพัฒนาตนเอง และอื่นๆ อีกมากมาย
หนึ่งอาจสร้างพอดแคสต์โดยใช้คำพูดที่สร้างโดยปัญญาประดิษฐ์ อย่างไรก็ตาม ผลลัพธ์ที่ได้อาจแสดงคุณภาพที่ไม่น่าสนใจและซ้ำซากจำเจ
ส่วนแนะนำสำหรับตอนพอดแคสต์ตอนหนึ่งของเราซึ่งมีชื่อว่า"พอดแคสต์ที่มีประโยชน์จริงๆ"ได้รับการสร้างสรรค์ขึ้นโดยใช้บริการของ ElevenLabs
แม้ว่าผลลัพธ์จะน้อยกว่าผลลัพธ์ที่ดีที่สุด แต่ผลลัพธ์ก็ถือว่าเป็นที่ยอมรับสำหรับการใช้งานจริง และยังมีช่องว่างเพียงพอสำหรับความก้าวหน้าทางเทคโนโลยีในอนาคต
นอกจากนี้ ElevenLabs ยังได้แสดงแผนสำหรับการพัฒนาฟีเจอร์"การสนทนาด้วยเสียงที่สร้างขึ้น"ที่เป็นนวัตกรรมใหม่ ซึ่งจะเปิดตัวในอนาคตอันใกล้นี้
ใช้เสียงของคุณในรูปแบบใหม่ด้วย ElevenLabs €™ Speech AI
ปัญญาประดิษฐ์มีส่วนสำคัญในการมอบนวัตกรรมที่น่าทึ่งมากมายให้กับเราในช่วงไม่กี่ครั้งที่ผ่านมานี้ ตัวอย่างเช่น Chat-GPT มีฟังก์ชันที่หลากหลายสำหรับการสร้างข้อความ ตอบคำถาม เขียนสรุป และอื่นๆ อีกมากมาย นอกจากนี้ Midjourney ยังโดดเด่นในฐานะแพลตฟอร์มสร้างสรรค์ที่โดดเด่นที่ใช้เทคโนโลยี AI เพื่อสร้างงานศิลปะภาพที่ได้รับแรงบันดาลใจจากข้อมูลของผู้ใช้
เครื่องมือ Speech AI ที่เป็นนวัตกรรมใหม่ที่พัฒนาโดย ElevenLabs จะช่วยปรับปรุงกระบวนการจัดการเสียง และสร้างการเลียนแบบน้ำเสียงและการผันคำของผู้พูดต้นฉบับได้อย่างราบรื่น เทคโนโลยีขั้นสูงนี้ช่วยให้ผู้ใช้สามารถสร้างโคลนเสียงที่น่าเชื่อซึ่งใกล้เคียงกับลักษณะเสียงร้องอันเป็นเอกลักษณ์ของผู้พูด
การใช้เทคโนโลยีเสียงทำให้เกิดข้อกังวลด้านจริยธรรมเกี่ยวกับการได้รับความยินยอมจากบุคคลก่อนการใช้งาน แต่ก็นำเสนอวิธีการพิเศษที่มีศักยภาพที่น่าสนใจหลายประการ สิ่งสำคัญที่สุดของเทคนิคนี้คือความเป็นมิตรต่อผู้ใช้และมีประสิทธิภาพที่โดดเด่น