Cách tạo giọng nói AI giống bạn với ElevenLabs

Alicia Brunner included in Technology Explained Artificial Intelligence

2023-09-15 2414 words 12 minutes

Contents

AI sáng tạo và deepfake đã xung đột với sự phát triển của các công cụ giọng nói AI. Ý tưởng rất đơn giản: bạn lấy một giọng nói và điều khiển nó để nói những từ bạn đưa ra.

Công cụ trí tuệ nhân tạo của ElevenLabs nổi bật là công cụ đi đầu trong danh mục này bằng cách cung cấp cả gói sử dụng miễn phí và các lựa chọn thay thế cao cấp được đánh giá cao.

ElevenLabs là gì?

Được thành lập bởi một cựu chuyên gia về máy học của Google và một cựu chuyên gia triển khai Palantir, ElevenLabs là một công ty nghiên cứu công nghệ giọng nói. Trọng tâm trong cách tiếp cận của họ là phát triển phần mềm nhận dạng giọng nói tiên tiến, nhằm tạo điều kiện thuận lợi cho việc dịch liền mạch các từ được nói sang các ngôn ngữ khác nhau trong thời gian thực.

Voice AI của ElevenLabs là một hệ thống chuyển văn bản thành giọng nói tiên tiến có khả năng tạo ra giọng nói có vẻ chân thực cao của con người. Trang web của công ty tuyên bố mục đích của mình là cung cấp hỗ trợ âm thanh đa ngôn ngữ có thể truy cập được trong các lĩnh vực khác nhau như giáo dục, dịch vụ phát trực tuyến, sách nói, trò chơi, phim và thậm chí cả giao tiếp thời gian thực.

Công cụ dịch ngôn ngữ nâng cao như Google Translate hoặc các công cụ thay thế của nó có giá trị đáng kể trong việc hỗ trợ giao tiếp vượt qua các rào cản ngôn ngữ. Tuy nhiên, hiện tại chưa có công nghệ nào có thể dịch tức thời các từ được nói từ ngôn ngữ này sang ngôn ngữ khác với độ chính xác hoàn toàn. Tuy nhiên, việc phát triển một hệ thống có khả năng thu thập và chuyển đổi chính xác ngôn ngữ nói được coi là một bước quan trọng để hiện thực hóa mục tiêu này. Bằng cách sao chép nhịp điệu, âm điệu và cách phát âm giọng nói của người nói ban đầu, một hệ thống như vậy có thể truyền tải một cách hiệu quả ý nghĩa dự định trong thông điệp của họ, từ đó nâng cao sự hiểu biết và giao tiếp đa ngôn ngữ.

Tạo giọng nói AI là gì?

Tính năng tạo giọng nói được hỗ trợ bởi AI cho phép người dùng tạo giọng nói tùy chỉnh bằng cách chọn âm thanh mong muốn và nhập nội dung văn bản, với công nghệ tự động tạo ra đầu ra giọng nói phản ánh các thông số được chỉ định.

Thật vậy, mặc dù các công nghệ tổng hợp giọng nói ban đầu như Microsoft Sam có khả năng tạo ra giọng nói giống con người trong những năm 1990, nhưng chúng vẫn thiếu mức độ tự nhiên và xác thực đáng kể khi so sánh với các hệ thống chuyển văn bản thành giọng nói hiện đại. Ngược lại, giải pháp đổi mới của ElevenLabs thể hiện mức độ trôi chảy và biểu cảm về mặt ngôn ngữ, phù hợp chặt chẽ hơn nhiều với các sắc thái và sự tinh tế vốn có trong giao tiếp của con người.

ElevenLabs cung cấp nhiều lựa chọn AI về giọng nói, bao gồm cả giọng nói “được tạo sẵn” miễn phí, cũng như trình tạo giọng nói AI cho phép người dùng tùy chỉnh các thông số như giới tính, độ tuổi và phương ngữ với một khoản phí. Ngoài ra, họ còn cung cấp giọng nói “nhân bản” cao cấp thông qua dịch vụ đăng ký cho phép người dùng tải lên giọng nói AI được cá nhân hóa của riêng họ.

Đây là một ví dụ:

Việc sử dụng trí tuệ nhân tạo trong nỗ lực sáng tạo đòi hỏi một số nghĩa vụ đạo đức và đạo đức nhất định, bao gồm cả việc tạo đầu ra giọng nói bằng công nghệ AI lời nói của ElevenLabs, phải được xem xét và giải quyết một cách kỹ lưỡng.

Về bản chất, nên có sự đồng ý trước khi sử dụng giọng hát của người khác. Mặc dù hành động đó có thể không bị pháp luật cấm nhưng nó có thể gây ra cảm giác bất mãn hoặc oán giận từ cá nhân liên quan.

Xin lưu ý rằng khi nội dung này được tạo, công nghệ trí tuệ nhân tạo giọng nói của ElevenLabs vẫn đang trong giai đoạn thử nghiệm. Do đó, nó vẫn chưa được phát triển và hoàn thiện đầy đủ.

Tạo đối thoại AI cơ bản

Một phương pháp đơn giản để bắt đầu quy trình là sử dụng tiện ích trí tuệ nhân tạo giọng nói miễn phí do ElevenLabs cung cấp.

Để sử dụng tính năng này, hãy truy cập beta.elevenlabs.io và tạo một tài khoản (bạn có thể sử dụng email của riêng mình, tài khoản Google hoặc Facebook).

Kế tiếp:

⭐ClickSpeech Tổng hợp

Trong menu “Cài đặt”, bạn có thể chọn từ nhiều tùy chọn giọng nói có sẵn, bao gồm cả lựa chọn nam và nữ.

⭐ Mở rộng Cài đặt giọng nói để đặt Thanh trượt Độ ổn định và rõ ràng \+ Tăng cường tương tự (độ ổn định cao là đơn điệu, độ rõ cao gần với giọng nói dự định hơn)

⭐SelectEleven đơn ngữ (tiếng Anh chuẩn)

Nhập văn bản bạn muốn chuyển thành giọng nói.“Đây là lệnh hướng dẫn người dùng nhập văn bản họ muốn nói to bằng công nghệ chuyển văn bản thành giọng nói. Người dùng có thể nhập bất kỳ loại nội dung văn bản nào, chẳng hạn như câu hoặc đoạn văn và chuyển nó sang định dạng âm thanh để phát lại.

⭐ Bấm Tạo

Sau khi hoàn tất quá trình, video sẽ tự động phát. Nếu điều này không xảy ra, vui lòng nhấp vào “Play” để bắt đầu video.

Bạn cũng có thể Tải xuống mẫu đã tạo.

Cách tạo giọng nói AI với ElevenLabs

Thật vậy, nếu một người muốn thiết lập một phong cách thanh nhạc sáng tạo, họ có thể sử dụng tùy chọn “Thêm giọng nói” để điều hướng đến giao diện “VoiceLab”. Ngoài ra, họ có thể chọn tạo âm thanh mới bằng cách sử dụng các thông số giọng nói được thiết lập trước của ElevenLabs.

⭐ Nhấp vào Thêm giọng nói > Thiết kế giọng nói

Vui lòng đặt giới tính, độ tuổi và giọng nói cho bản ghi âm lồng tiếng cho nhân vật của bạn bằng cách điền vào các trường tương ứng bên dưới.

Điều chỉnh thanh trượt Cường độ giọng theo sở thích mong muốn của bạn, đảm bảo rằng nó đáp ứng các yêu cầu và sở thích cụ thể của bạn để phát âm chính xác các từ bằng tiếng nước ngoài.

Quá trình chuyển đổi văn bản từ ngôn ngữ này sang ngôn ngữ khác được gọi là dịch thuật. Dịch thuật không chỉ liên quan đến việc thay thế các từ trong một ngôn ngữ bằng các từ tương đương trong ngôn ngữ khác. Nó đòi hỏi sự hiểu biết về bối cảnh, văn hóa và sắc thái của cả hai ngôn ngữ liên quan. Điều này đảm bảo rằng văn bản dịch truyền tải chính xác ý nghĩa dự định của văn bản gốc đồng thời phù hợp với đối tượng mục tiêu. Các dịch giả có tay nghề cao được đào tạo để nhận ra các tài liệu tham khảo về văn hóa, thành ngữ, từ thông tục và các đặc điểm ngôn ngữ khác dành riêng cho từng ngôn ngữ mà họ làm việc. Họ sử dụng các công cụ phần mềm chuyên dụng và tài liệu tham khảo để đảm bảo tính chính xác và nhất quán trong suốt quá trình dịch thuật.

⭐ Bấm Tạo

⭐Khi nào xong hãy nghe nhé

Khi kiểm tra, người ta nhận thấy rằng cả giọng Nữ/Trẻ/Úc và Nam/Già/Úc đều thể hiện chất giọng Mỹ rõ rệt. Mặc dù điều này hiện có thể được coi là không nhất quán, nhưng nó có thể được giải quyết nhờ những tiến bộ trong tiến bộ công nghệ.

Tạo tiếng nói của riêng bạn trong AI

Khía cạnh hấp dẫn của công nghệ ElevenLabs nằm ở tính năng Nhân bản giọng nói tức thì cải tiến, cung cấp cả tùy chọn được cấu hình sẵn và tùy chỉnh để tạo giọng nói.

Việc đăng ký Nhân bản giọng nói tức thì phải chịu một khoản phí định kỳ cần phải đăng ký. Chúng tôi cung cấp nhiều mức giá, với gói hợp lý nhất sẽ giúp bạn trả lại 5 USD mỗi tháng. Tuy nhiên, hiện tại, chúng tôi rất vui được cung cấp cho khách hàng mới một chương trình khuyến mãi hấp dẫn, giảm 80% tỷ lệ tiêu chuẩn của chúng tôi, sao cho số tiền ban đầu của bạn sẽ chỉ là 1 đô la trong thời gian giới thiệu.

Các lựa chọn thay thế bổ sung có sẵn ở các mức giá định kỳ là $22, $99 và $330, mỗi lựa chọn có khả năng sản xuất tối đa 40 giờ nội dung âm thanh mỗi tháng.

Để sử dụng công nghệ nhân bản giọng nói do ElevenLabs cung cấp, bạn phải cung cấp trao đổi bằng lời nói cùng với bản ghi âm giọng nói của chính bạn. Điều quan trọng là đoạn hội thoại phải dễ hiểu và được lưu ở định dạng tệp MP3. Để có kết quả tối ưu, bạn nên sử dụng đoạn âm thanh dài hơn, kéo dài tối đa năm phút.

Từ màn hình VoiceLab:

Vui lòng chọn một trong các tùy chọn bên dưới để thêm giọng nói vào tài khoản của bạn. Bạn có thể chọn “Nhân bản giọng nói tức thì” hoặc “Tùy chỉnh giọng nói của riêng bạn.

Trong khung giao diện tiếp theo, gán tên cho khung được hiển thị.

Vui lòng cung cấp tệp để phân tích bằng cách nhấp và kéo tệp vào trường này, tối đa 25 tệp có thể được tải lên đồng thời để nâng cao độ chính xác.

⭐ Nhấp vào Nhãn và chỉ định giá trị khóa \+ (ví dụ: Giọng/tiếng Anh)–thực hiện việc này tối đa 5 lần

Đầu vào cung cấp hướng dẫn để người dùng mô tả các đặc điểm giọng nói mong muốn của họ một cách ngắn gọn, chẳng hạn như cao độ, âm sắc và âm lượng, bằng cách nhập một cụm từ hoặc câu ngắn thể hiện được bản chất của âm thanh dự định.

Vui lòng xem lại và xác nhận các điều khoản dịch vụ trước khi tiếp tục thêm chức năng nhập giọng nói bằng cách chọn hộp kiểm “Xác nhận đồng ý”, sau đó nhấp vào “Thêm giọng nói”.

Khi kết hợp thành phần giọng nói, người ta có thể tinh chỉnh các đặc điểm của nó trong giao diện Tổng hợp giọng nói, như đã đề cập trước đó.

Bạn có thể làm gì với giọng nói AI?

Các ứng dụng tiềm năng của việc sử dụng cách phát âm có sẵn và được sao chép trong trí tuệ nhân tạo là rất lớn, như được chỉ ra bởi mục tiêu cuối cùng của ElevenLabs là chuyển đổi ngôn ngữ theo thời gian thực. Tuy nhiên, công ty cũng đã thừa nhận vô số cách sử dụng thay thế.

Sách nói, có thể được thuật lại bởi một nhân vật điện ảnh lừng lẫy của năm qua, thường được thảo luận cùng với các trò chơi điện tử sử dụng trí tuệ nhân tạo để đối thoại, do đó loại bỏ nhu cầu về diễn viên lồng tiếng là con người. Tuy nhiên, các ứng dụng tiềm năng của chúng vượt xa các lĩnh vực này, bao gồm các thể loại như âm nhạc, châm biếm và văn học tự hoàn thiện bản thân, cùng nhiều thể loại khác.

Người ta có thể tạo một podcast sử dụng giọng nói do trí tuệ nhân tạo tạo ra; tuy nhiên, kết quả có thể thể hiện chất lượng không hấp dẫn và đơn điệu.

Phân đoạn giới thiệu cho một trong các tập podcast của chúng tôi, có tựa đề “Podcast thực sự hữu ích”, đã được tạo bằng cách sử dụng các dịch vụ do ElevenLabs cung cấp.

Mặc dù có kết quả kém tối ưu nhưng kết quả được coi là có thể chấp nhận được để áp dụng thực tế và vẫn còn nhiều cơ hội cho tiến bộ công nghệ trong tương lai.

Ngoài ra, ElevenLabs cũng đã bày tỏ kế hoạch phát triển tính năng “đàm thoại bằng giọng nói được tạo” đầy sáng tạo sẽ được triển khai trong tương lai gần.

Sử dụng giọng nói của bạn theo cách mới với AI giọng nói của ElevenLabs

Trí tuệ nhân tạo là công cụ cung cấp cho chúng ta rất nhiều cải tiến đáng chú ý trong thời gian gần đây. Ví dụ: Chat-GPT cung cấp chức năng linh hoạt để tạo văn bản, trả lời các truy vấn, soạn tóm tắt, v.v. Ngoài ra, Midjourney còn nổi bật như một nền tảng sáng tạo đặc biệt sử dụng công nghệ AI để tạo ra tác phẩm nghệ thuật trực quan lấy cảm hứng từ ý kiến đóng góp của người dùng.

Công cụ AI giọng nói cải tiến do ElevenLabs phát triển giúp hợp lý hóa quá trình xử lý giọng nói, tạo ra sự mô phỏng liền mạch âm sắc và cách chuyển giọng của người nói ban đầu. Công nghệ tiên tiến này cho phép người dùng tạo ra những bản sao âm thanh có sức thuyết phục gần giống với đặc điểm giọng hát độc đáo của người nói.

Việc sử dụng công nghệ giọng nói làm nảy sinh những lo ngại về mặt đạo đức liên quan đến việc có được sự đồng ý của các cá nhân trước khi sử dụng nó; tuy nhiên, nó thể hiện một phương tiện phi thường với nhiều tiềm năng hấp dẫn. Khía cạnh đáng chú ý nhất của kỹ thuật này là tính thân thiện với người dùng và hiệu quả vượt trội.