주요 시사점
딥페이크 기술의 확산은 단순한 오락적 가치를 넘어 여러 가지 우려스러운 결과를 초래하고 있습니다. 시각적 콘텐츠를 정밀하게 조작할 수 있는 능력은 개인이나 그룹이 허위 사실을 대규모로 전파할 수 있게 함으로써 정보의 무결성에 대한 실존적 위협을 제기합니다. 이는 광범위한 허위 정보 캠페인으로 이어질 수 있으며, 이는 대중의 신뢰와 담론에 심각한 영향을 미칠 수 있습니다. 또한, 딥페이크가 신분을 속이는 데 사용될 수 있는 잠재력은 특히 사람들의 인격을 훼손하거나 신뢰도를 떨어뜨리는 등 새로운 피해의 기회를 창출합니다. 경우에 따라서는 이러한 조작된 동영상이 외교 관계의 취약점을 악용하고 국가 간 적대감을 조장하여 지정학적 긴장을 유발할 수도 있습니다. 따라서,
딥페이크 탐지를 위해 고안된 첨단 AI 기술을 사용할 수 있음에도 불구하고 이러한 도구가 완벽하지는 않다는 점을 강조하는 것이 중요합니다. 이러한 조작된 미디어 콘텐츠를 식별하는 데 있어 인간의 판단과 분별력이 필수적인 요소임을 인정해야 합니다.
인간의 전문 지식과 인공지능 기반 탐지 방법의 통합은 딥페이크 기술로 인한 문제를 해결하기 위한 포괄적인 접근 방식을 제공합니다. 인간과 인공지능 시스템의 고유한 역량을 활용함으로써 이 새로운 위협과 관련된 잠재적 위험을 식별하고 대응할 수 있는 능력을 향상시킬 수 있습니다.
딥페이크 기술의 출현은 사회의 다양한 측면에 심각한 위협이 되고 있으며, 잘못된 정보에 대응하기 위해 진짜와 조작된 콘텐츠를 구별하는 능력의 중요성을 강조하고 있습니다. 그러나 인공지능이 발전함에 따라 딥페이크의 영향을 식별하고 완화하는 데 있어 인간의 전문 지식에 의존하는 것이 더 신뢰할 수 있는지 아니면 기술 솔루션에 의존하는 것이 더 신뢰할 수 있는지에 대해 고민해야 합니다.
딥페이크의 위험성
인공지능의 점진적인 발전으로 딥페이크 기술과 관련된 위험에 대한 우려가 커지고 있습니다.
딥페이크 기술은 거짓 이야기나 조작된 뉴스 기사 등 조작된 비디오 및 오디오 콘텐츠를 통해 오해의 소지가 있는 정보를 전파할 가능성이 있습니다.
딥페이크 기술은 사칭 행위를 통해 개인의 평판을 해치고 지인을 속일 수 있는 잠재력을 가지고 있습니다.
국가 안보 우려는 세계 지도자들이 폭력, 침략 또는 기타 적대적인 행동을 선동하는 모습을 묘사하여 국제 분쟁을 선동할 수 있는 가짜 동영상 및 오디오를 제작할 수 있는 딥페이크 기술의 잠재력과 관련되어 있습니다.
기만적인 시각 및 청각 매체를 통한 교묘한 조작은 특정 커뮤니티 내에서 불화를 유발하고 분쟁을 조장하여 시민 불안을 조장할 수 있습니다.
사이버 범죄자들이 인공지능 기반 음성 모방 도구를 활용하는 것이 현실화되고 있으며, 이러한 기술을 사용하여 익숙한 연락처에서 발신한 것처럼 보이는 통신을 통해 개인을 속이고 있습니다.
딥페이크 기술을 악의적으로 적용하면 허가받지 않은 사람으로 위장할 수 있어 개인정보 보호 및 사전 동의에 대한 우려가 제기됩니다.
신뢰와 신뢰는 상호 의존적이며, 진실과 거짓을 구별하는 능력이 부족하면 모든 정보가 신뢰성이 없는 것처럼 보입니다.
기술이 발전함에 따라 딥페이크가 점점 더 현실화되고 있으며, 이를 식별할 수 있는 신뢰할 수 있는 방법과 시스템의 개발이 필요합니다. 인공지능은 딥페이크 탐지 모델을 통해 해결책을 제시하지만, 이 역시 인공지능이 생성한 텍스트를 인식하기 위해 만들어진 알고리즘에서 발견되는 것과 유사한 한계가 있습니다.
현재 인간의 판단력과 의사 결정 능력은 진품 콘텐츠와 조작된 미디어를 구별하는 데 중요한 자원으로 남아 있습니다. 그러나 딥페이크와 같이 점점 더 발전하는 형태의 인공지능에 의한 속임수에 직면했을 때 인간의 전문 지식에만 의존하는 것이 항상 정확한 결과를 도출하는 것은 아니라는 점을 인정해야 합니다. 따라서 인간의 직관은 진실과 거짓을 구분하는 데 필수적인 역할을 하지만, 이러한 복잡한 디지털 위조를 탐지하는 능력을 개선할 여지는 여전히 남아 있습니다.
알고리즘이 인간보다 딥페이크를 더 잘 감지할 수 있나요?
딥페이크는 기술 대기업과 연구 그룹이 연구 개발에 막대한 자원을 투입할 만큼 심각한 위협입니다. 2019년에는 메타, 마이크로소프트, 아마존 등이 가장 정확한 탐지 모델을 찾아내는 딥페이크 탐지 챌린지 에서 1,000,000달러의 상금을 제공하기도 했습니다.
가장 높은 성능을 보인 모델은 공개적으로 액세스 가능한 비디오 녹화로 구성된 데이터 세트와 관련하여 82.56%의 정확도를 보여주었습니다. 하지만 동일한 모델을 이전에 관찰되지 않은 10,000개의 비디오 세트를 사용하여 평가했을 때 정확도는 65.18%에 불과했습니다.
저희의 연구는 인간의 숙련도와 대조하여 인공지능 기반 딥페이크 탐지기의 효율성을 비교 분석하는 것으로 확장되었습니다.결론적으로, 이러한 평가는 다양한 조사에서 서로 다른 결과를 도출한다는 점에 주목할 필요가 있습니다. 그럼에도 불구하고, 연구 결과에 따르면 인간은 현재의 딥페이크 검출기 기술이 보여주는 정확도를 달성하거나 능가하는 능력을 지속적으로 입증하고 있습니다.
2021년 PNAS 에 발표된 한 연구에 따르면 ‘일반인 관찰자’가 주요 딥페이크 탐지 도구보다 약간 더 높은 정확도를 달성한 것으로 나타났습니다. 그러나 이 연구는 또한 인간 참가자와 AI 모델이 서로 다른 유형의 실수에 취약하다는 사실을 발견했습니다.
흥미롭게도 시드니 대학교 에서 수행한 연구에 따르면 인간의 뇌는 무의식적으로 의식적인 노력보다 딥페이크 발견에 더 효과적이라는 사실이 밝혀졌습니다.
딥페이크의 시각적 단서 탐지
딥페이크 탐지 분야는 해당 미디어의 특정 특성에 따라 다양한 분석 접근 방식이 필요한 복잡한 뉘앙스를 지니고 있습니다. 이러한 조작의 대표적인 사례로는 2020년 김정은 북한 국무위원장을 묘사한 악명 높은 딥페이크 동영상의 제작이 있습니다. 이 특정 동영상은 주로 말하는 머리 시퀀스로 구성되었습니다. 따라서 조작을 나타내는 불일치를 식별하기 위해서는 인간 의사소통의 기본 구성 요소인 비쥬얼(말소리의 몸짓 표현)과 음소(음성 언어 내의 개별 소리 단위)와 같은 시각적 요소를 면밀히 조사하는 것이 효과적일 수 있습니다.
인간 전문가, 일반 시청자, 알고리즘 모두 이러한 종류의 분석을 수행할 수 있으며, 결과는 다를 수 있습니다. MIT 은 딥페이크 동영상을 식별하는 데 도움이 되는 8가지 질문을 정의합니다:
고품질 딥페이크에는 일반적으로 얼굴 변경이나 조작이 포함되므로 얼굴 영역을 주의 깊게 살펴보시기 바랍니다.
뺨과 이마 주변을 주의 깊게 살펴보세요. 피부의 질감과 톤이 지나치게 매끈하거나, 지나치게 주름이 있거나, 머리카락이나 눈의 나이 관련 특성 등 다른 특징과 일치하지 않나요? 딥페이크 기술의 특정 측면이 모든 경우에 완벽하게 일치하지 않을 수 있다는 점에 유의하세요.
눈과 눈썹에 주목하세요. 있어야 할 곳에 그림자가 있나요? 딥페이크는 주어진 시나리오의 자연스러운 물리적 속성을 정확하게 묘사하기 위해 노력하지만, 특정 경우에는 부족할 수 있습니다.
안경에 유의하세요. 반사나 과도한 밝기가 존재하나요? 개인이 위치를 이동하면 이러한 특성이 변경되나요?이 경우 딥페이크가 조명의 실제 광학적 특성을 완전히 포착하지 못할 수 있습니다.
얼굴에 있는 수염을 관찰하고 그것이 진짜로 보이는지 여부를 판단하는 것이 중요합니다. 딥페이크는 콧수염, 구레나룻, 수염과 같은 특징을 잠재적으로 강화하거나 제거할 수 있습니다. 이러한 변경은 가능하지만, 딥페이크 기술로 얼굴 털을 완전히 완벽하게 변형하는 것은 항상 성공하지 못할 수도 있습니다.
의심스러워 보이는 얼굴 점의 경우 자연스러운 모양으로 보이도록 주의해 주세요.
대화 중 상대방의 편안함과 이완 정도를 파악할 수 있으므로 눈을 감고 뜨는 경우를 기록해 두세요. 정상적인 속도로 눈을 깜빡이는지, 아니면 스트레스나 불편함을 나타낼 수 있는 과도한 깜빡임과 같은 눈에 띄는 패턴이 있는지 관찰하는 것이 중요합니다.
입술의 움직임에 주목하세요. 경우에 따라 딥페이크는 입술 동기화에 의존합니다. 입술의 정렬이 유기적이고 매끄럽게 보이나요?
고급 인공지능 딥페이크 탐지 기술은 현재 다양한 분석 기법을 사용하지만, 그 효율성은 특정 애플리케이션에 따라 다를 수 있습니다. 여기에는 조작을 나타낼 수 있는 미묘한 얼굴 표정이나 조명의 변화를 식별하는 것이 포함됩니다. 또한 연구자들은 말과 관련된 자연스러운 얼굴 홍조 패턴을 식별하는 등 혁신적인 전략을 계속 고안하고 있습니다. 인간의 능력을 능가할 수 있는 향상된 AI 기반 탐지 시스템의 출현 가능성은 이러한 접근 방식의 지속적인 개발과 개선, 그리고 현재의 방법론에 대한 개선에 달려 있습니다.
딥페이크에서 오디오 단서 탐지
딥페이크 오디오를 식별하는 것은 딥페이크 동영상을 탐지하는 것과는 다른 고유한 과제를 안고 있습니다. 일반적으로 동영상에 존재하는 시각적 단서가 없고 소리와 이미지 사이의 불일치를 식별할 기회가 부족하기 때문에 효과적인 탐지를 위해서는 강력한 오디오 분석 기술에 의존해야 합니다. 또한 메타데이터 유효성 검사와 같은 다른 방법도 특정 상황에서 제한적인 도움을 제공할 수 있습니다.
2023년에 유니버시티 칼리지 런던 에서 발표한 연구에 따르면 인간은 딥페이크 음성을 73%(영어 및 중국어) 감지할 수 있는 것으로 나타났습니다. 딥페이크 비디오와 마찬가지로, 인간 청취자는 AI가 생성한 음성에서 부자연스러운 음성 패턴을 직관적으로 감지하는 경우가 많으며, 무엇이 부자연스러워 보이는지 명시하지 못하더라도 직관적으로 감지할 수 있습니다.
심리적 중독을 의심할 수 있는 몇 가지 지표는 다음과 같습니다:
말을 더듬는 행위는 일반적으로 알코올 섭취 또는 명확하고 뚜렷하게 말하는 능력에 영향을 미치는 기타 요인으로 인해 두 개 이상의 말소리가 섞이거나 합쳐지는 것을 포함합니다. 이로 인해 말하는 내용을 이해하기 어려워져 의사소통이 어려워지고 말하는 사람과 듣는 사람 모두 당황할 수 있습니다.
언어화 감소 또는 제한은 말, 제스처 또는 기타 형태의 의사소통을 통해 자신을 표현하는 데 결함이 있는 것으로 알려져 있습니다. 이는 신경학적 장애, 발달 지연, 정서적 장벽 또는 개인의 생각과 감정을 효과적으로 전달하는 능력을 방해하는 심리적 상태와 같은 다양한 요인으로 인해 발생할 수 있습니다.
배경 또는 간섭 신호가 있으면 통신 네트워크, 센서 및 전자 장치와 같은 다양한 시스템의 성능과 정확성에 부정적인 영향을 미칠 수 있습니다. 이러한 원치 않는 신호는 전자기 간섭(EMI), 무선 주파수 간섭(RFI), 전력선 험, 의도한 신호 또는 데이터 전송을 방해하는 기타 환경 요인 등 다양한 원인으로 인해 발생할 수 있습니다. 필터링, 차폐 및 오류 수정과 같은 노이즈 감소 기술의 효과는 간섭의 특성과 소스, 해당 시스템의 특정 요구 사항에 따라 달라집니다.
억양, 방언, 발음의 차이 등 다양한 요인으로 인해 음성 또는 말소리의 불일치가 발생할 수 있습니다. 이러한 차이는 특히 다양한 언어적 배경을 가진 개인과 상호 작용할 때 오해와 의사소통의 단절을 초래할 수 있습니다. 이러한 잠재적인 문제를 인식하고 효과적인 의사소통을 위해 명확하고 일관성 있는 언어 표현을 위해 노력하는 것이 중요합니다.
목소리 톤이 강렬하거나 풍부하지 않은 것을 ‘충만함’이 부족하다고 할 수 있습니다.
메시지를 전달할 때 과도하거나 지나치게 연습된 언어를 사용하면 진정성이 없고 부자연스러워 보일 수 있으며, 의도한 효과를 떨어뜨릴 가능성이 있습니다.
잘못된 시작, 수정, 성대 클리어링과 같은 결함이나 불규칙한 부분이 없는 것을 결함 없음이라고 합니다.
알고리즘도 동일한 딥페이크 신호에 대해 음성을 분석할 수 있지만, 새로운 방법을 통해 더욱 효과적인 도구가 만들어지고 있습니다. USENIX 의 연구에서는 자연스러운 음성을 모방하지 못하는 AI 성대 재구성의 패턴을 확인했습니다.이 연구는 AI 음성 생성기가 사람 말의 자연스러운 움직임 없이 좁은 성대(대략 빨대 크기)에 맞는 오디오를 생성한다는 것을 요약합니다.
Horst Görtz 연구소 의 이전 연구에서는 영어와 일본어의 진품과 딥페이크 오디오를 분석하여 진품과 딥페이크의 고주파수에서 미묘한 차이를 발견했습니다.
성대 및 고주파 불일치에 대한 가청성은 인간과 인공지능(AI) 탐지 시스템이 모두 공유합니다. 고주파 불일치와 관련하여 AI 모델은 시간이 지남에 따라 정확도를 향상시킬 수 있는 잠재력을 가지고 있지만, AI로 생성된 딥페이크 오디오의 개발과 관련하여 유사한 주장이 제기될 수도 있습니다.
인간과 알고리즘 모두 딥페이크에 속지만, 속는 방식은 다르다
연구에 따르면 인간 관찰자와 최첨단 인공 지능 시스템 모두 딥페이크 미디어를 탐지하는 능력이 비슷한 것으로 나타났습니다. 그러나 이러한 도구의 효과는 성능을 평가하는 데 사용되는 특정 기준에 따라 50%에서 90% 이상까지 변동될 수 있습니다.
실제로 사람의 인식과 기계 기반 알고리즘 모두 고급 딥페이크에 속을 수 있습니다. 그러나 취약점은 각기 다르게 나타나기 때문에 이러한 차이점을 활용하여 딥페이크 기술과 관련된 위험에 효과적으로 대응할 수 있는 특별한 기회가 있습니다. 인간과 AI 기반 딥페이크 탐지기의 고유한 기능을 모두 활용함으로써 각각의 장점을 활용하고 단점을 보완하여 딥페이크 조작으로 인한 문제를 해결하는 데 있어 전반적인 성능을 향상시킬 수 있습니다.
예를 들어, MIT 연구에 따르면 인간이 AI 모델보다 세계 지도자와 유명인의 딥페이크를 더 잘 식별하는 것으로 나타났습니다. 또한 AI 모델은 여러 사람이 등장하는 영상에서는 어려움을 겪었지만, 이는 한 명의 화자가 등장하는 영상으로 알고리즘을 학습했기 때문일 수 있다고 밝혔습니다.
이와는 대조적으로, 앞서 언급한 연구에서는 인간 관찰자를 오도하기 위해 의도적으로 조작되었을 수 있는 흐릿하거나 거친 영상과 같은 저화질 영상에 직면했을 때 AI 모델이 더 우수한 결과를 얻는다는 것을 보여주었습니다. 또한 특정 얼굴 부위의 혈류량 평가를 포함한 최신 AI 감지 기술은 인간의 지각 능력을 뛰어넘습니다.
인공지능이 인간의 인식을 피하는 단서를 식별하는 방법론의 발전은 꾸준히 진행되어 왔으며, 앞으로 이러한 능력은 더욱 능숙해질 것으로 예상됩니다.이와 동시에 인공지능이 기만적인 전술을 통해 사람들을 오도할 가능성도 확대될 것으로 예상됩니다. 딥페이크 식별을 위해 고안된 기술 혁신이 위조된 미디어 콘텐츠의 정교함에 비해 우월한 수준을 유지할 수 있을지는 아직 불확실합니다.
딥페이크 시대, 다르게 보기
딥페이크 감지를 위한 인공지능의 발전이 계속됨에 따라 딥페이크 콘텐츠의 복잡성과 사실감도 함께 발전하고 있습니다. 그러나 인공지능 기술의 속임수 식별 능력이 인간의 대응 능력을 능가한다면, 인간의 판단력만이 이러한 조작에 효과적으로 대응할 수 있는 유일한 수단이 될 수 있습니다.
개인이 딥페이크 콘텐츠의 지표를 숙지하고 이를 식별하는 데 필요한 기술을 개발하는 것이 필수적입니다. 이는 사기 수법과 사이버 보안 위험으로부터 보호하는 데 도움이 될 뿐만 아니라 디지털 플랫폼에서 교환 및 공유되는 정보가 진실성에 근거하도록 보장합니다.