기술은 종종 우리의 삶이 더 편리하고 안전해진다는 것을 의미합니다. 그러나 동시에 이러한 발전은 사이버 범죄자들이 우리를 공격하고 보안 시스템을 손상시켜 무력화시킬 수 있는 더욱 정교한 방법을 열어주었습니다.
인공지능(AI)은 사이버 보안 전문가와 사이버 범죄자 모두에게 활용될 수 있으며, 마찬가지로 머신러닝(ML) 시스템도 선과 악에 모두 사용될 수 있습니다. 이러한 도덕적 잣대의 부재로 인해 머신 러닝의 적대적 공격은 점점 더 어려운 과제가 되고 있습니다. 그렇다면 실제로 적대적 공격이란 무엇일까요? 그 목적은 무엇일까요? 그리고 어떻게 방어할 수 있을까요?
머신 러닝에서 적대적 공격이란 무엇인가요?
적대적 ML 또는 적대적 공격은 악의적인 입력으로 ML 모델을 속여 정확도를 떨어뜨리고 성능을 저하시키는 것을 목표로 하는 사이버 공격입니다. 따라서 이름과는 달리 적대적 ML은 머신 러닝의 한 유형이 아니라 사이버 범죄자, 즉 공격자가 ML 시스템을 표적으로 삼기 위해 사용하는 다양한 기법입니다.
이러한 공격의 주요 목적은 일반적으로 모델을 속여 민감한 정보를 유출하거나, 사기 활동을 탐지하지 못하거나, 잘못된 예측을 생성하거나, 분석 기반 보고서를 손상시키는 것입니다. 여러 유형의 적대적 공격이 있지만, 딥러닝 기반 스팸 탐지를 노리는 경우가 많습니다.
중간자 공격에 대해 들어보셨을 텐데요, 이는 개인 정보, 세션 쿠키를 도용하고 다중 인증(MFA) 방법을 우회하는 새롭고 더 효과적인 정교한 피싱 기법입니다. 다행히도 피싱 방지 MFA 기술로 이러한 수법에 대응할 수 있습니다.
적대적 공격의 유형
적대적 공격의 유형을 분류하는 가장 간단한 방법은 표적 공격과 비표적 공격의 두 가지 주요 카테고리로 구분하는 것입니다. 표적 공격은 특정 대상(예: 특정인)이 있는 반면, 비표적 공격은 특정 대상을 염두에 두지 않고 거의 모든 사람을 표적으로 삼을 수 있습니다. 당연히 비표적 공격은 표적 공격에 비해 시간이 덜 걸리지만 성공률도 낮습니다.
이 두 가지 유형은 화이트박스 공격과 블랙박스 공격으로 더 세분화할 수 있으며, 색상에 따라 표적화된 ML 모델에 대한 지식이 있거나 지식이 부족함을 나타냅니다. 화이트박스 공격과 블랙박스 공격에 대해 자세히 알아보기 전에 가장 일반적인 공격 유형에 대해 간단히 살펴보겠습니다.
⭐ 회피: 주로 바이러스 시나리오에서 사용되는 회피 공격은 바이러스에 감염된 이메일 및 스팸 이메일의 콘텐츠를 숨겨 탐지를 회피하려고 시도합니다. 공격자는 시행착오 방법을 활용하여 배포 시점에 데이터를 조작하고 ML 모델의 기밀성을 손상시킵니다. 생체 인식 스푸핑은 회피 공격의 가장 일반적인 예 중 하나입니다.
⭐ 데이터 중독: 오염 공격이라고도 하는 이 공격은 훈련 또는 배포 기간 동안 ML 모델을 조작하여 정확도와 성능을 떨어뜨리는 것을 목표로 합니다. 공격자는 악의적인 입력을 도입함으로써 모델을 방해하고 보안 전문가가 ML 모델을 손상시키는 샘플 데이터의 유형을 탐지하기 어렵게 만듭니다.
⭐ 비잔틴 결함: 이 유형의 공격은 모든 노드 간의 합의가 필요한 시스템에서 비잔틴 결함으로 인해 시스템 서비스가 손실되는 것을 유발합니다. 신뢰할 수 있는 노드 중 하나가 불량 노드로 변하면 서비스 거부(DoS) 공격을 실행하고 시스템을 종료하여 다른 노드의 통신을 차단할 수 있습니다.
⭐ 모델 추출: 추출 공격에서 공격자는 블랙박스 ML 시스템을 조사하여 학습 데이터를 추출하거나 최악의 경우 모델 자체를 추출합니다. 그런 다음 공격자는 ML 모델의 사본을 손에 넣으면 안티바이러스/바이러스 백신에 대해 바이러스를 테스트하고 이를 우회하는 방법을 알아낼 수 있습니다.
⭐ 추론 공격: 추출 공격과 마찬가지로 ML 모델이 학습 데이터에 대한 정보를 유출하도록 만드는 것이 목표입니다. 그러나 공격자는 시스템을 학습시키는 데 사용된 데이터 세트를 알아내어 시스템의 취약점이나 편견을 악용할 수 있습니다.
화이트박스 대 블랙박스 대 그레이박스 적대적 공격
이 세 가지 유형의 적대적 공격을 구분하는 것은 공격자가 공격하려는 ML 시스템의 내부 작동에 대해 얼마나 많은 지식을 가지고 있느냐에 달려 있습니다. 화이트박스 방식은 표적 ML 모델(아키텍처 및 매개변수 포함)에 대한 철저한 정보가 필요한 반면, 블랙박스 방식은 정보가 필요하지 않고 출력만 관찰할 수 있습니다.
반면 그레이박스 모델은 이 두 극단의 중간에 위치합니다. 이 모델에 따르면 공격자는 데이터 세트에 대한 일부 정보 또는 ML 모델에 대한 기타 세부 정보를 가질 수 있지만 전부는 가질 수 없습니다.
적대적 공격으로부터 머신 러닝을 어떻게 방어할 수 있을까요?
사이버 보안을 강화하는 데 있어 여전히 사람이 중요한 요소이지만, AI와 ML은 악성 공격을 탐지하고 예방하는 방법을 학습하여 악성 위협 탐지, 사용자 활동 모니터링, 의심스러운 콘텐츠 식별 등의 정확성을 높일 수 있습니다. 하지만 이러한 학습을 통해 적대적인 공격을 방어하고 ML 모델을 보호할 수 있을까요?
사이버 공격에 대응할 수 있는 한 가지 방법은 학습 절차에 예시를 추가하여 적대적인 공격을 미리 인식하도록 ML 시스템을 학습시키는 것입니다.
이러한 무차별 대입 방식과 달리 방어 증류 방식은 효율성이 높은 1차 모델을 사용하여 효율성이 낮은 2차 모델의 중요한 특징을 파악한 다음, 1차 모델을 통해 2차 모델의 정확도를 개선하는 방식입니다. 방어 증류법으로 훈련된 ML 모델은 적대적인 샘플에 덜 민감하므로 악용에 덜 취약합니다.
또한 ML 모델이 데이터 분류에 사용하는 알고리즘을 지속적으로 수정할 수 있으므로 공격의 성공률이 낮아질 수 있습니다.
또 다른 주목할 만한 기법은 피처 스퀴징으로, 불필요한 입력 피처를 “압착”하여 공격자가 사용할 수 있는 검색 공간을 줄입니다. 이 기법의 목표는 오탐을 최소화하고 적대적인 예제 탐지를 더 효과적으로 만드는 것입니다.
머신 러닝 및 인공 지능 보호
적대적 공격은 많은 ML 모델이 놀라운 방식으로 무너질 수 있다는 것을 보여주었습니다. 결국, 적대적 머신 러닝은 사이버 보안 영역에서 아직 새로운 연구 분야이며, AI와 ML에는 많은 복잡한 문제가 수반됩니다.
모든 적대적 공격으로부터 이러한 모델을 보호할 수 있는 마법의 솔루션은 없지만, 미래에는 이 끔찍한 공격에 대처할 수 있는 더 발전된 기술과 더 스마트한 전략이 등장할 것입니다.