인공지능(AI)은 우리 삶을 변화시킬 수 있는 강력한 기술입니다. 인터넷에 연결된 사람이라면 누구나 강력한 도구를 사용할 수 있는 오늘날처럼 그 가능성이 분명했던 적은 없었습니다.
여기에는 사람의 음성을 매우 능숙하게 모방할 수 있는 고급 소프트웨어인 AI 음성 생성기가 포함되며, 이 둘을 구분하는 것이 불가능할 정도로 능숙하게 모방할 수 있습니다. 이것이 사이버 보안에 어떤 의미가 있을까요?
AI 음성 생성기는 어떻게 작동하나요?
사람의 음성을 인공적으로 생성하는 과정인 음성 합성은 수십 년 동안 존재해 왔습니다. 그리고 모든 기술과 마찬가지로 수년에 걸쳐 큰 변화를 겪었습니다.
Windows 2000 및 XP를 사용해 본 사람이라면 운영 체제의 기본 텍스트 음성 변환 남성 음성인 Microsoft Sam을 기억할 것입니다. Microsoft Sam은 작업을 완료했지만 로봇처럼 딱딱하고 부자연스러운 소리를 냈습니다. 오늘날 우리가 사용할 수 있는 도구는 딥 러닝 덕분에 훨씬 더 발전했습니다.
딥러닝은 인공 신경망을 기반으로 하는 머신 러닝의 한 방법입니다. 이러한 신경망 덕분에 최신 AI는 인간 뇌의 뉴런이 정보를 해석하는 것과 거의 유사한 방식으로 데이터를 처리할 수 있습니다. 즉, AI가 인간과 더 비슷해질수록 인간의 행동을 더 잘 모방할 수 있습니다.
이것이 바로 최신 AI 음성 생성기의 작동 방식입니다. 더 많은 음성 데이터에 노출될수록 사람의 음성을 더 능숙하게 모방할 수 있습니다. 비교적 최근에 이 기술이 발전한 덕분에 최첨단 텍스트 음성 변환 소프트웨어는 기본적으로 입력된 소리를 그대로 재현할 수 있습니다.
위협 행위자가 AI 음성 생성기를 사용하는 방법
당연히 이 기술은 위협 행위자들에 의해 악용되고 있습니다. 일반적인 의미의 사이버 범죄자뿐만 아니라 허위 정보 제공자, 사기꾼, 블랙 햇 마케터, 트롤도 이 기술을 악용하고 있습니다.
2023년 1월 ElevenLabs가 텍스트 음성 변환 소프트웨어의 베타 버전을 출시하자마자 극우 트롤들이 4chan 게시판에서 이를 악용하기 시작했습니다. 이들은 첨단 AI를 이용해 데이비드 애튼버러나 엠마 왓슨과 같은 유명인의 목소리를 재현하여 마치 해당 유명인이 비열한 혐오 발언을 하는 것처럼 보이게 만들었습니다.
당시 부통령 이 보도한 바와 같이 ElevenLabs는 사람들이 자사 소프트웨어, 특히 음성 복제를 오용하고 있다는 사실을 인정했습니다. 이 기능을 사용하면 누구나 다른 사람의 목소리를 ‘복제’할 수 있으며, 1분 분량의 녹음 파일을 업로드하기만 하면 나머지는 AI가 알아서 처리합니다. 아마도 녹음이 길수록 더 좋은 결과물을 얻을 수 있을 것입니다.
2023년 3월, 한 바이럴 영상이 뉴욕타임즈 의 관심을 끌었습니다. 이 동영상에는 유명 팟캐스터인 조 로건과 ‘조 로건 익스피리언스’에 자주 출연하는 앤드류 휴버만 박사가 ‘성욕 증진’ 카페인 음료에 대해 이야기하는 장면이 담겨 있습니다. 이 동영상은 로건과 휴버만이 이 제품을 명백하게 지지하는 것처럼 보였습니다. 사실 두 사람의 목소리는 AI를 이용해 복제된 것이었습니다.
비슷한 시기에 캘리포니아주 산타클라라에 본사를 둔 실리콘밸리 은행이 리스크 관리 실수 및 기타 문제로 인해 파산하여 주 정부에 의해 인수되었습니다. 이는 2008년 금융 위기 이후 미국에서 발생한 최대 규모의 은행 부실로, 글로벌 시장에 충격을 안겨주었습니다.
패닉의 원인은 조 바이든 미국 대통령의 가짜 오디오 녹음 때문이었습니다. 이 녹음에서 바이든은 임박한 “붕괴”를 경고하고 행정부에 “대중을 진정시키기 위해 미디어의 모든 힘을 사용하라”고 지시하는 것으로 들렸습니다. 폴리티팩트 와 같은 팩트체커들은 이 영상을 빠르게 반박했지만, 그 시점까지 수백만 명이 이 영상을 들었을 가능성이 높습니다.
AI 음성 생성기가 유명인을 사칭하는 데 사용될 수 있다면 일반인을 사칭하는 데도 사용될 수 있으며, 사이버 범죄자들이 실제로 그렇게 해왔습니다. ZDNet 에 따르면 매년 수천 명의 미국인이 비싱 또는 보이스 피싱으로 알려진 사기에 속아 넘어갑니다. 2023년 한 노부부는 감옥에 있다고 주장하며 돈을 요구하는 ‘손자’의 전화를 받고 전국적인 헤드라인을 장식했습니다.
YouTube 동영상을 업로드했거나 동영상에 출연한 적이 있거나, 모르는 사람들과 대규모 그룹 통화에 참여했거나, 인터넷에 자신의 목소리를 업로드한 적이 있다면 이론적으로 본인 또는 사랑하는 사람이 위험에 처할 수 있습니다. 사기꾼이 사용자의 목소리를 AI 생성기에 업로드하여 복제하고 가족에게 연락하는 것을 막을 수 있는 방법은 무엇인가요?
AI 음성 생성기가 사이버 보안 환경을 파괴하고 있다
사이버 보안 전문가가 아니더라도 AI가 잘못된 손에 들어가면 얼마나 위험할 수 있는지 알 수 있습니다. 모든 기술이 마찬가지겠지만, AI는 여러 가지 이유로 인해 고유한 위협이 됩니다.
첫째, 비교적 새로운 기술이기 때문에 우리는 AI에서 무엇을 기대할 수 있는지 잘 모릅니다. 사이버 범죄자들은 최신 AI 도구를 사용하여 전례 없는 방식으로 운영을 확장하고 자동화하는 동시에 이 문제에 대한 대중의 상대적 무지를 이용할 수 있습니다. 또한, 생성 AI는 지식과 기술이 거의 없는 위협 행위자도 악성 코드를 만들고, 사기 사이트를 구축하고, 스팸을 퍼뜨리고, 피싱 이메일을 작성하고, 사실적인 이미지를 생성하고, 가짜 오디오 및 비디오 콘텐츠를 끝없이 제작할 수 있게 해줍니다.
결정적으로, 이는 양방향으로 작동합니다: AI는 시스템을 보호하는 데에도 사용되며, 앞으로도 수십 년 동안 계속 사용될 것입니다. 이러한 도구의 방어 능력과 공격 능력이 본질적으로 동등하다는 점에서 사이버 범죄자와 사이버 보안 업계 간의 일종의 AI 군비 경쟁이 우리를 기다리고 있다고 가정하는 것은 무리가 아닐 것입니다.
일반인의 경우, 광범위한 생성 AI의 출현으로 보안 관행에 대한 근본적인 재고가 필요합니다. AI는 흥미롭고 유용할 수 있지만, 최소한 실제와 그렇지 않은 것 사이의 경계를 모호하게 만들 수 있으며, 최악의 경우 기존 보안 문제를 악화시키고 위협 행위자가 활동할 수 있는 새로운 공간을 만들 수 있습니다.
AI의 파괴적인 잠재력을 보여주는 음성 생성기
ChatGPT가 시장에 출시되자마자 AI 규제에 대한 논의가 활발해졌습니다. 이 기술을 제한하려는 시도는 아마도 수십 년 동안 보지 못했던 수준의 국제적인 협력이 필요할 것이므로 실현 가능성은 낮습니다.
지니는 이미 병에서 나왔고, 우리가 할 수 있는 최선은 그것에 익숙해지는 것입니다. 그리고 사이버 보안 부문이 그에 따라 적응하기를 바랍니다.