생성 AI는 크리에이티브 산업의 더 많은 분야로 서서히 확산되고 있습니다. AI 아트 제너레이터에서 시작하여 AI가 생성한 텍스트를 이용한 글쓰기로 확산되었습니다. 이제 그 목록에 음악을 추가할 수 있습니다.

가까운 미래에 무에서 유를 창조하는 AI 생성 음악이 현실이 될 것입니다. 실제로 OpenAI의 음악 제작 AI 모델인 Jukebox를 사용하면 이미 가능합니다. 아직 사용하기 쉬운 애플리케이션으로 제공되지는 않고 음질도 아직 충분하지 않지만 알고리즘의 뼈대는 갖춰져 있습니다.

OpenAI의 Jukebox에 대해 알아야 할 사항과 이를 통해 무엇을 할 수 있는지 알아보세요.

주크박스: 음악을 원시 오디오로 생성하는 AI

Jukebox는 장르, 아티스트 또는 가사와 같은 입력을 제공하면 원시 오디오 형태로 음악을 생성할 수 있는 신경망입니다. 2020년 4월, AI 아트 제너레이터 ‘Dall-E’와 AI 챗봇 ‘ChatGPT’를 개발한 OpenAI가 출시했습니다.

전 세계적으로 빠르게 확산되며 뉴스와 미디어의 화두로 떠오른 Dall-E와 달리, Jukebox는 출시 후 큰 관심을 끌지 못했습니다. 그 이유 중 하나는 적어도 아직까지는 사용자 친화적인 웹 애플리케이션이 없기 때문입니다.

OpenAI 웹사이트 에서 인코딩 및 디코딩 프로세스의 작동 방식에 대한 심층적인 설명과 함께 코드를 찾을 수 있습니다.

또 다른 가능한 이유는 엄청난 시간과 컴퓨팅 파워가 필요하기 때문입니다. 1분 분량의 오디오를 렌더링하는 데만 9시간이 걸릴 수 있습니다. AI 모델이 음악을 생성하는 데 어떤 기능을 하는지 확인하려면 코드 형태로 모델을 탐색하려는 의지와 함께 많은 인내심이 필요합니다.

또는 주크박스 샘플 탐색기 로 건너뛸 수 있습니다. 여기에서 OpenAI가 엘라 피츠제럴드나 투팍과 유사한 노래를 생성하는 실험을 게시했습니다.

명확하게 말하면, 다른 AI 음악 도구도 노래를 생성하는 데 도움을 주지만 처음부터 오디오를 생성하지는 않습니다. 대신 미리 녹음된 샘플을 결합하거나 디지털 신디사이저를 통해 미디 정보를 생성합니다.

주크박스의 소리는 어떤가요?

주크박스의 결과는 알아볼 수 있지만 이상합니다. 노래의 형태와 노래가 속한 장르를 이해하는 것은 어렵지 않지만 결과물의 품질은 마치 초기에 녹음된 음악을 듣는 것처럼, 즉 많은 잡음이 섞여 들리는 것처럼 들립니다.

이 글도 확인해 보세요:  창의적인 직업도 AI로부터 안전하지 않은 이유

Jukebox는 좋은 헤드폰에서 들을 수 있는 고음질 사운드를 생성하지 못한다고 해도 과언이 아닙니다. 올바른 주파수로 완전히 튜닝되지 않은 라디오 방송국의 음악을 듣는 것과 비슷합니다. 일부 곡은 재연곡인 반면 다른 곡은 기존 곡의 연장선상에 있습니다. 새로운 아티스트와 스타일, 보이지 않는 가사를 위한 카테고리도 있습니다.

초기 실험자들은 음질에도 불구하고 주크박스가 만들어내는 음악의 섬뜩한 아름다움과 기괴함에 경외감을 느꼈다고 말합니다. “미지의 문화를 가진 미지의 나라에 대한 다큐멘터리의 사운드트랙처럼”, Merzmench가 미디엄 에 썼습니다.

현재로서는 인간이 만든 음악을 복사하거나 대체할 수 있을 만큼의 결과물에는 미치지 못하지만, 기술은 빠르게 발전하고 있으며 조만간 Jukebox와 같은 모델도 이러한 업적을 달성할 수 있게 될 것입니다.

OpenAI의 주크박스 학습 방법

주크박스가 전에 없던 음악을 만들 수 있는 이유 중 하나는 실제 뮤지션의 음악으로 학습했기 때문입니다. OpenAI가 이를 설명합니다:

“이 모델을 학습시키기 위해 웹을 크롤링하여 120만 곡(이 중 60만 곡은 영어)의 새로운 데이터 세트를 큐레이션하고 해당 가사 및 가사 위키의 메타데이터와 짝을 맞췄습니다.”

데이터 크롤링은 일부 AI 회사에서 이미지, 텍스트 또는 이 경우에는 음악을 생성할 때 AI 모델이 학습하고 의사 결정을 내리는 데 사용할 수 있는 데이터 집합을 만드는 데 사용하는 방법입니다. 크롤링으로 생성된 데이터 세트는 애초에 데이터 소유자로부터 동의를 얻지 않기 때문에 논란이 많습니다. 하지만 일부 플랫폼에서는 데이터 세트에서 콘텐츠를 제외할 수 있습니다.

120만 곡이 많다고 생각할 수도 있지만, 이에 비해 Dall-E 2는 인터넷에서 수억 개의 이미지-텍스트 쌍으로 학습되었습니다. 그런 점에서 주크박스는 한계가 있습니다.

상대적으로 작은 학습 풀로는 인간 음악의 풍부함과 다양성을 포착할 수 없습니다. OpenAI는 서양 음악에 대한 학습이 대부분이라고 밝혔기 때문에 생성할 수 있는 음악에 대한 편향성이 분명합니다.

주크박스로 무엇을 할 수 있나요?

그렇다면 이러한 한계를 염두에 두고 주크박스로 무엇을 할 수 있을까요? 이 질문에 답하는 빠른 방법은 주크박스로 무엇을 할 수 없는지 말하는 것입니다.

이 글도 확인해 보세요:  제품 사진 촬영을 위한 창의적인 소품 아이디어 9가지(그리고 각 소품의 사용 시기)

1분 분량의 음악을 렌더링하는 데 반나절 가까이 걸리기 때문에 음악 제작에는 그다지 유용하지 않습니다. 적어도 전통적인 의미에서는 그렇지 않습니다. 일반적으로 뮤지션은 악기로 연주하는 것(즉흥 연주)과 곡의 구조를 계획하는 것 사이를 오가며 작업합니다. 주크박스에서는 이와 같은 실험이 불가능합니다.

이 단계에서는 주크박스로 곡을 만드는 것이 쉽지 않으므로, 음악 샘플을 생성하는 새로운 방법이라고 생각하면 됩니다. 마음에 드는 오디오를 생성한 후에는 평소처럼 크리에이티브 프로젝트에 사용할 수 있습니다.

아래 동영상은 누군가가 짧은 몽타주 동영상에 주크박스로 만든 음악을 사용하여 강조한 결과물입니다.

인공지능은 크리에이티브 분야 외에도 다양한 분야에서 활용되고 있으므로 인공지능이 무엇이고 어떤 위험이 있는지 이해하는 것이 중요합니다.

인공지능 음악에 감동을 받으셨나요?

주크박스에서 생성된 음악은 쉽게 무시할 수 없으며, 그 모든 낯설고 섬뜩한 인간과 기계의 품질에도 불구하고 결국에는 음악처럼 들립니다. 음악 업계에서는 한동안 AI 도구를 사용해 왔지만, 원음 그대로의 음악을 생성할 수 있는 가능성은 이제야 현실이 되었습니다.

하지만 Jukebox와 같은 모델은 존재하지만 아직 상용 도구로 패키지화되지 않았고, 인간 뮤지션의 능력에는 아직 미치지 못합니다.

By 최은지

윈도우(Windows)와 웹 서비스에 대한 전문 지식을 갖춘 노련한 UX 디자이너인 최은지님은 효율적이고 매력적인 디지털 경험을 개발하는 데 탁월한 능력을 발휘합니다. 사용자의 입장에서 생각하며 누구나 쉽게 접근하고 즐길 수 있는 콘텐츠를 개발하는 데 주력하고 있습니다. 사용자 경험을 향상시키기 위해 연구를 거듭하는 은지님은 All Things N 팀의 핵심 구성원으로 활약하고 있습니다.