생성 AI와 딥페이크의 등장은 AI 음성 기술의 발전을 촉진했습니다. 이 혁신의 기본 원리는 기존 음성 샘플을 가져온 다음 매개 변수를 조작하여 주어진 텍스트에 따라 원하는 출력을 생성하는 것입니다.

ElevenLabs는 무료로 사용할 수 있는 AI 음성 도구를 제공하는 선두 업체로 두각을 나타내고 있습니다.

일레븐랩스란 무엇인가요?

전 구글 머신러닝 전문가와 전 팔란티어 배포 전문가가 공동 설립한 일레븐랩스는 음성 기술 연구를 전문으로 하는 회사입니다. AI 음성 소프트웨어의 활용은 그들의 접근 방식에 매우 중요하지만, 궁극적인 목표는 한 언어에서 다른 언어로 음성 단어를 원활하게 번역할 수 있는 장치를 개발하는 것입니다.

온디맨드 멀티

음성 언어와 문자를 즉시 번역하는 기술의 개발은 현대 커뮤니케이션의 중요한 발전이었습니다. 그러나 구두 커뮤니케이션의 정확한 해석을 달성하는 것은 여전히 어려운 일이며, 특히 원어민의 목소리 굴절과 어조를 재현하려고 할 때 더욱 그렇습니다. 인공적인 수단을 통해 사람의 목소리를 정확하게 복제하는 과정, 즉 ‘음성 복제’는 이러한 목표를 실현하기 위한 중요한 단계로 간주됩니다.

AI 음성 생성이란 무엇인가요?

음성 생성에 인공 지능을 활용하면 특정 음성을 선택한 다음 원하는 메시지를 받아쓰기하면 나머지 작업은 도구가 효율적으로 처리할 수 있습니다.

누군가는 “1990년대에도 마이크로소프트 샘이 이런 기능을 했었잖아”라고 추측할 수 있고, 그 추측이 전적으로 맞을 수도 있습니다. 하지만 마이크로소프트 샘과 유사한 기기는 로봇 특유의 음색을 가지고 있었던 반면, 일레븐랩스의 기술은 사람의 말투와 매우 흡사합니다.

ElevenLabs는 무료 ‘미리 만들어진’ 음성, 성별, 나이, 방언을 선택할 수 있는 음성 생성기, 사용자가 업로드할 수 있는 구독 기반 ‘복제된’ 음성 등 다양한 음성 인공지능 대안을 제공합니다.

이 개념에 대한 데모는 아래에 제공됩니다.

예술적 목적을 위한 인공 지능의 활용에는 특정한 도덕적, 윤리적 의무가 수반되며, ElevenLabs가 제공하는 음성 AI 기술을 사용한 음성 개발도 이와 유사하게 이러한 고려 사항이 적용됩니다.

이 글도 확인해 보세요:  휴대폰은 50, 랜섬웨어 복호화 설명, ChatGPT가 팟캐스트를 제작합니다!

개인의 동의 없이 개인의 발성을 활용하는 행위는 그 자체로 불법은 아니지만 당사자의 불쾌감을 유발할 수 있으므로 자제하는 것이 바람직합니다.

현재 활용되고 있는 일레븐랩스의 음성 AI 도구는 아직 베타 테스트 단계에 있다는 점에 유의하시기 바랍니다. 이는 이 소프트웨어의 특정 반복이 아직 광범위하게 배포할 준비가 되지 않은 것으로 간주되며 추가 수정 및 개선이 필요할 수 있음을 의미합니다.

기본 인공지능 대화 생성

언어적 의사소통이 가능한 무료 인공지능 기기를 통해 ElevenLabs를 활용할 수 있습니다.

이를 사용하려면 beta.elevenlabs.io 로 이동하여 계정을 생성하세요(본인 이메일, Google 계정 또는 Facebook을 사용할 수 있음).

계속하려면 음성 합성을 클릭하세요.

설정 메뉴에 남성 및 여성 목소리를 포함하여 미리 구성된 다양한 음성 옵션 중에서 선택할 수 있는 옵션이 있습니다.

⭐ 음성 설정을 확장하여 안정성과 선명도 + 유사성 향상(안정성이 높으면 단조롭고, 선명도가 높으면 의도한 음성에 더 가깝습니다) 슬라이더를 설정합니다.

표준 영어로 된 11개의 단일 언어 옵션을 선택하라는 메시지가 표시됩니다.

음성으로 변환할 텍스트를 입력하세요.

⭐ 생성 클릭

프로세스가 완료되면 자동으로 재생될 것으로 예상됩니다. 그렇지 않은 경우 “재생” 버튼을 클릭하세요.

생성된 예제를 다운로드하여 사본을 얻을 수 있습니다.

ElevenLabs로 음성 생성하기

새로운 음색을 생성하는 옵션은 ‘음성 추가’ 기능을 추가하여 사용자를 VoiceLab 인터페이스로 안내하는 방식으로 이용할 수 있습니다. 또는 Eleven Labs의 사전 구성된 음성 생성 설정을 사용하여 오디오 페르소나를 구성하도록 선택할 수 있습니다.

⭐ 음성 추가를 클릭하고 음성 디자인

원하는 목소리의 성별, 나이, 억양을 지정해 주세요.

기본 설정에 따라 악센트 강도 슬라이더를 사용하여 악센트 강도를 수정하세요.

변환하고 싶은 텍스트를 입력하세요.

⭐ 생성을 클릭하세요

작업이 완료되면 결과에 귀를 기울여 주세요.

검사 결과 여성/젊은/호주인과 남성/노년/호주인의 말하기 패턴 모두 미국 고유의 것으로 인식되는 특징을 보였습니다.그러나 이러한 현상은 기술의 발전이 계속 진행됨에 따라 수정될 수 있습니다.

이 글도 확인해 보세요:  더 이상 필요하지 않은 기술 11가지

AI로 나만의 목소리 만들기

ElevenLabs의 기술에서 가장 주목할 만한 점은 사전 제작 및 사용자 지정 가능한 옵션이 모두 있는 인스턴트 음성 복제 도구입니다.

인스턴트 음성 복제는 이러한 조치가 필요하지 않은 다른 대안과 다르기 때문에 구독이 필요합니다. 선택할 수 있는 여러 플랜이 있으며 가장 저렴한 플랜은 월 5달러입니다. 또한 현재 80%의 입문 할인을 제공하여 첫 달에 단 1달러로 가격을 낮췄습니다.

매월 최대 40시간의 오디오 콘텐츠를 제작할 수 있는 월 $22, $99, $330의 대체 요금제가 있습니다.

인스턴트 음성 복제를 사용하려면 음성 콘텐츠와 개인의 음성 녹음 샘플이 모두 필요합니다. 들을 수 있고 MP3 파일 형식으로 저장된 모든 오디오 녹음으로 충분하며, 최대 5분까지 길수록 유리합니다.

죄송합니다, 텍스트 입력만 인식할 수 있습니다. 여기에 질문이나 명령어를 입력해 주시면 최선을 다해 도와드리겠습니다.

구어체 사용을 자제해 주세요. 대신 다음과 같이 표현할 수 있습니다: “음성 추가: 오디오 콘텐츠의 즉각적인 복제.

이어지는 대화 상자에서 파일에 레이블을 지정합니다.

샘플을 업로드하려면 적절한 파일을 클릭하거나 드래그하세요. 정밀도를 높이기 위해 최대 25개의 샘플을 추가할 수 있습니다.

⭐ 레이블을 클릭하고 키 + 값(예: 악센트/영국식)을 지정합니다 – 최대 5회까지 이 작업을 수행합니다

입력은 부드럽고 차분한 품질의 여성 목소리를 설명합니다. 화자는 차분하고 신중하게 메시지를 전달하며, 명확하고 간결한 언어를 사용하여 메시지를 전달합니다. 약간의 억양이나 지역적 굴절이 있어 목소리에 따뜻함과 개성을 더할 수 있습니다. 전반적으로 이 목소리는 친근하고 다가가기 쉬우므로 고객 서비스, 교육 콘텐츠 또는 치료 환경과 같은 다양한 분야에 적합합니다.

해당 체크박스에 체크하여 동의를 확인한 후 음성 추가를 진행하세요.

음성을 통합한 후

AI 음성으로 무엇을 할 수 있나요?

AI 음성에서 사전 제작 및 복제된 음성 샘플의 활용은 수많은 잠재적 응용 분야를 보여줍니다. 일레븐랩스의 궁극적인 목표는 실시간 번역을 달성하는 것이지만, 다른 여러 가지 활용 가능성도 인정하고 있습니다.

이 글도 확인해 보세요:  스팸이란 무엇이며 어떻게 이런 이름이 붙었나요?

인공지능을 사용하여 음성 대화를 생성하는 비디오 게임 외에도 음악, 풍자, 자기계발과 같은 장르를 포괄하는 오디오북의 활용은 광범위하며, 이러한 범주를 넘어 확장될 가능성이 높습니다.

인공지능 음성을 활용하여 팟캐스트를 제작할 수 있지만, 결과물에 굴절이 부족하고 흥미를 끌지 못할 수 있습니다.

“정말 유용하다”라는 제목의 효과적인 팟캐스트는 ElevenLabs를 통해 세심하게 제작된 전주곡을 선보였습니다.

결과는 완전히 만족스럽지는 않지만 여전히 사용할 수 있으며 이 기술은 더 개선될 가능성이 있습니다.

일레븐랩스는 조만간 음성 생성 기술을 통해 합성 대화가 가능한 새로운 기능을 도입할 계획입니다.

일레븐랩스의 음성 AI로 새로운 방식으로 목소리를 활용하세요

최근 인공지능(AI)의 등장은 괄목할 만한 혁신을 동반하고 있습니다. 그러한 예 중 하나는 서면 콘텐츠를 생성하고, 쿼리에 응답하고, 요약을 공식화하는 등의 기능을 갖춘 Chat-GPT입니다. 또한 입력된 지시를 통해 시각 예술을 생성하는 획기적인 애플리케이션인 Midjourney도 있습니다.

ElevenLabs의 음성 AI 도구를 사용하면 원래의 음성 톤과 억양을 모방하거나 복제하는 것처럼 보이면서도 선명도나 일관성을 잃지 않고 음성 표현을 원활하게 조작할 수 있습니다.

명시적인 허가 없이 음성 샘플을 활용하는 것에 대한 도덕적 반대에도 불구하고 이 기술은 상당한 잠재력을 가지고 있으며 매우 원활하게 구현할 수 있어 매우 효과적인 결과를 얻을 수 있습니다.

By 박준영

업계에서 7년간 경력을 쌓은 숙련된 iOS 개발자인 박준영님은 원활하고 매끄러운 사용자 경험을 만드는 데 전념하고 있습니다. 애플(Apple) 생태계에 능숙한 준영님은 획기적인 솔루션을 통해 지속적으로 기술 혁신의 한계를 뛰어넘고 있습니다. 소프트웨어 엔지니어링에 대한 탄탄한 지식과 세심한 접근 방식은 독자에게 실용적이면서도 세련된 콘텐츠를 제공하는 데 기여합니다.