인공 지능의 발전은 다양한 분야에 큰 영향을 미쳤습니다. 이로 인해 많은 기술 애호가들이 우려의 목소리를 내고 있습니다. 이러한 기술이 다양한 애플리케이션으로 확장됨에 따라 적대적 공격이 증가할 수 있기 때문입니다.
인공 지능의 적대적 공격이란 무엇인가요?
적대적 공격은 AI 모델 내의 사양과 취약점을 악용합니다. 이러한 공격은 AI 모델이 학습한 데이터를 손상시켜 부정확한 결과를 생성하게 만듭니다.
장난꾼이 파인애플로 배열된 스크래블 타일을 “애플파인”으로 바꾼다고 상상해 보십시오. 이는 적대적인 공격에서 발생하는 것과 유사합니다.
몇 년 전만 해도 AI 모델에서 몇 가지 잘못된 응답이나 출력을 얻는 것이 일반적이었습니다. 이제는 부정확한 응답이 예외가 되어 거의 완벽에 가까운 결과를 기대하는 AI 사용자가 많아졌습니다.
이러한 AI 모델을 실제 시나리오에 적용하면 부정확성이 치명적일 수 있으며, 적대적인 공격이 매우 위험해질 수 있습니다. 예를 들어, 교통 표지판의 스티커는 자율 주행 차량을 혼란스럽게 하여 교통 체증이나 장애물에 직접 부딪히게 할 수 있습니다.
적대적 공격의 유형
적대적 공격에는 다양한 형태가 있습니다. AI가 일상적인 애플리케이션에 점점 더 많이 통합됨에 따라 이러한 공격은 더욱 악화되고 복잡해질 가능성이 높습니다.
그럼에도 불구하고 위협 행위자가 AI 모델에 대해 얼마나 많이 알고 있는지에 따라 적대적 공격을 크게 두 가지 유형으로 분류할 수 있습니다.
화이트박스 공격
화이트박스 공격에서 위협 행위자는 AI 모델의 내부 작동에 대해 완전히 알고 있습니다. 사양, 학습 데이터, 처리 기술, 매개변수 등을 알고 있습니다. 이러한 지식을 바탕으로 공격자는 해당 모델을 겨냥한 공격을 구축할 수 있습니다.
화이트박스 공격의 첫 번째 단계는 원본 학습 데이터를 변경하여 가능한 한 가장 작은 방식으로 손상시키는 것입니다. 수정된 데이터는 여전히 원본과 매우 유사하지만 AI 모델이 부정확한 결과를 도출할 수 있을 만큼 충분히 중요합니다.
이것이 전부가 아닙니다. 공격 후 위협 행위자는 모델이 실수를 하도록 설계된 왜곡된 입력인 악의적인 예제를 모델에 제공하여 모델의 효율성을 평가하고 출력을 분석합니다. 결과가 부정확할수록 공격의 성공률이 높아집니다.
블랙박스 공격
위협 행위자가 AI 모델의 내부 작동 방식을 알고 있는 화이트박스 공격과 달리, 블랙박스 공격의 가해자는 모델이 어떻게 작동하는지 전혀 모릅니다. 그저 사각지대에서 모델을 관찰하고 입력 및 출력 값을 모니터링할 뿐입니다.
블랙박스 공격의 첫 번째 단계는 AI 모델이 분류하고자 하는 입력 대상을 선택하는 것입니다. 그런 다음 위협 행위자는 사람의 눈에는 보이지 않지만 AI 모델을 오작동시킬 수 있는 데이터에 신중하게 조작된 노이즈와 교란을 추가하여 입력의 악성 버전을 만듭니다.
악성 버전이 모델에 공급되고 출력이 관찰됩니다. 모델이 제공하는 결과는 위협 행위자가 모델에 입력된 데이터를 잘못 분류할 수 있다는 확신이 들 때까지 버전을 계속 수정하는 데 도움이 됩니다.
적대적 공격에 사용되는 기법
악의적인 주체는 다양한 기법을 사용하여 적대적 공격을 수행할 수 있습니다. 다음은 이러한 기법 중 일부입니다.
포이즌닝
공격자는 AI 모델의 입력 데이터 일부를 조작(포이즌)하여 학습 데이터 세트와 정확도를 손상시킬 수 있습니다.
포이즌에는 여러 가지 형태가 있습니다. 가장 일반적인 것 중 하나는 백도어 포이즌으로, 학습 데이터에 거의 영향을 미치지 않습니다. AI 모델은 특정 트리거와 접촉하여 오작동하도록 “활성화”될 때까지 계속해서 매우 정확한 결과를 제공합니다.
회피
이 기법은 AI의 보안 시스템을 우회하여 탐지를 피하기 때문에 다소 치명적입니다.
대부분의 AI 모델에는 이상 탐지 시스템이 장착되어 있습니다. 회피 기법은 이러한 시스템을 직접 공격하는 적대적 사례를 사용합니다.
이 기법은 자율 주행 자동차나 의료 진단 모델과 같은 임상 시스템에 특히 위험할 수 있습니다. 이러한 분야는 부정확성이 심각한 결과를 초래할 수 있는 분야입니다.
전이성
이 기법을 사용하는 위협 행위자는 AI 모델의 매개변수에 대한 사전 지식이 필요하지 않습니다. 이들은 과거에 다른 버전의 모델에 대해 성공한 적대적 공격을 사용합니다.
예를 들어, 적대적 공격으로 인해 이미지 분류기 모델이 거북이를 소총으로 오인하는 경우, 동일한 공격으로 인해 다른 이미지 분류기 모델도 동일한 오류를 일으킬 수 있습니다. 다른 모델은 다른 데이터 세트에 대해 학습되었을 수도 있고 아키텍처가 다를 수도 있지만 여전히 공격의 희생양이 될 수 있습니다.
대리
위협 행위자는 회피 기법이나 이전에 성공한 공격을 사용하여 모델의 보안 시스템을 공격하는 대신 대리 모델을 사용할 수 있습니다.
이 기법을 사용하면 위협 행위자는 대상 모델과 동일한 버전인 대리 모델을 만듭니다. 대리 모델의 결과, 매개변수 및 동작은 복사된 원본 모델과 동일해야 합니다.
이제 서로게이트는 부정확한 결과를 생성하거나 잘못된 분류를 수행할 때까지 다양한 적대적 공격을 받게 됩니다. 그런 다음 이 공격은 원래의 표적 AI에 사용됩니다.
적대적 공격을 차단하는 방법
적대적 공격을 방어하는 것은 위협 행위자가 다양한 형태와 기법을 사용하기 때문에 복잡하고 시간이 많이 소요될 수 있습니다. 그러나 다음 단계를 수행하면 적대적 공격을 예방하고 차단할 수 있습니다.
적대적 훈련
적대적 공격을 예방할 수 있는 가장 효과적인 단계는 적대적 예시를 사용하여 AI 모델과 머신을 훈련하는 적대적 훈련입니다. 이를 통해 모델의 견고성을 향상시키고 사소한 입력 교란에도 탄력적으로 대응할 수 있습니다.
정기 감사
AI 모델의 이상 탐지 시스템의 약점을 정기적으로 점검할 필요가 있습니다. 여기에는 의도적으로 모델에 악의적인 예시를 제공하고 악의적인 입력에 대한 모델의 동작을 모니터링하는 것이 포함됩니다.
데이터 살균
이 방법에는 모델에 입력되는 악성 입력을 확인하는 작업이 포함됩니다. 악성 입력이 확인되면 즉시 제거해야 합니다.
이러한 데이터는 입력 유효성 검사를 사용하여 식별할 수 있으며, 여기에는 데이터에서 이전에 알려진 공격 사례의 패턴이나 서명이 있는지 확인하는 작업이 포함됩니다.
보안 업데이트
보안 업데이트와 패치를 잘못하면 문제가 발생하기 어렵습니다. 방화벽, 맬웨어 방지 프로그램, 침입 탐지 및 방지 시스템과 같은 다계층 보안은 AI 모델을 오염시키려는 위협 행위자의 외부 간섭을 차단하는 데 도움이 될 수 있습니다.
적대적 공격은 가치 있는 적이 될 수 있습니다
적대적 공격의 개념은 고급 학습 및 머신 러닝에 문제를 제기합니다.
따라서 AI 모델은 적대적 훈련, 정기적인 감사, 데이터 살균 및 관련 보안 업데이트와 같은 방어 수단으로 무장해야 합니다.