퀵 링크
주요 내용
AI 모델 입력을 통해 악의적인 예제를 주입하여 피싱 시도를 유발할 수 있는 유해한 결과를 초래할 수 있습니다.
프롬프트 인젝션 공격은 DAN(Do Anything Now) 공격과 간접 인젝션 공격의 두 가지 형태로 나타날 수 있으며, 두 공격 모두 인공지능 시스템의 악의적 활동 수행 능력을 높일 수 있어 오용에 대한 우려가 커지고 있습니다.
간접 프롬프트 인젝션 공격은 신뢰할 수 있는 AI 시스템에서 생성된 응답을 조작하여 시스템의 신뢰성을 훼손하고 잘못된 정보나 유해한 결과를 초래할 수 있기 때문에 사용자에게 심각한 위협이 됩니다.
사이버 범죄자들은 ‘프롬프트 인젝션’으로 알려진 교묘한 수법으로 개인이 신뢰할 수 있는 결과를 얻기 위해 의존하는 인공지능 시스템에서 생성된 정보를 오염시킵니다. 이 데이터를 손상시킴으로써 해커의 악의적인 의도는 심각한 해를 끼칠 수 있는 변경된 결과를 통해 달성됩니다. 그러나 이러한 공격이 정확히 어떻게 작동하는지 또는 이러한 공격으로부터 자신을 보호하기 위해 어떤 조치를 취할 수 있는지는 아직 명확하게 밝혀지지 않았습니다.
AI 프롬프트 인젝션 공격이란 무엇인가요?
공격자는 생성형 인공 지능 시스템에 내재된 약점을 악용하여 AI 프롬프트 인젝션 공격으로 알려진 프로세스를 통해 생성된 결과를 조작할 수 있습니다. 이러한 공격은 시스템을 손상시키려는 개인이 직접 실행하거나 권한이 없는 사용자가 간접적인 수단을 통해 도입할 수 있습니다. DAN(Do Anything Now) 공격은 사용자와 같은 일반적인 최종 사용자에게는 위협이 되지 않지만, 이러한 생성형 AI 기술로부터 수신한 정보를 오염시킬 수 있는 다른 잠재적 위협이 존재한다는 점에 유의해야 합니다.
메시지 읽기 및 응답 생성과 같은 자율 기능을 갖춘 AI 시스템은 악의적인 공격자가 인지된 권위와 신뢰성을 악용하여 사용자를 속여 민감한 정보를 유출하거나 유해한 행동을 실행하도록 조작하기 쉽습니다. 예를 들어, 숙련된 공격자는 AI가 승인되지 않은 형식의 개인 데이터 입력을 요청하도록 하여 머신 러닝 개체의 설득력을 활용하여 피싱 공격을 성공적으로 수행할 수 있도록 교묘한 계략을 꾸밀 수 있습니다.또한, 감독되지 않은 AI 시스템이 사람의 개입 없이 외부 소스의 명령을 수락하고 실행할 수 있으므로 보안 침해에 대한 잠재적 취약성이 발생할 수 있습니다.
프롬프트 인젝션 공격은 어떻게 작동하나요?
프롬프트 인젝션 공격은 사용자의 명시적인 승인이나 인식 없이 인공 지능 시스템에 은밀하게 추가 명령을 도입하는 사이버 공격의 한 형태입니다. 이러한 악의적인 행위는 동적 분석 취약점(DAN) 공격, 경사 프롬프트 인젝션 공격 등 다양한 전술을 통해 실행될 수 있습니다.
DAN(지금 뭐든지 하기) 공격
적대적 입력 또는 DAN(지금 뭐든지 하기) 공격은 ChatGPT와 같은 생성형 AI 시스템을 의도된 제약 조건에서 벗어나게 하기 위한 입력 조작 전술의 한 예입니다. 이러한 공격이 최종 사용자를 직접적으로 위협하지는 않지만, AI 시스템의 기능을 증폭시켜 악의적인 목적을 위한 잠재적 도구로 전환할 수 있습니다.
예를 들어, 보안 연구원 Alejandro Vidal 는 DAN 프롬프트를 사용하여 OpenAI의 GPT-4가 키로거용 Python 코드를 생성하도록 만들었습니다. 탈옥된 AI를 악의적으로 사용하면 사이버 범죄와 관련된 기술 기반 장벽을 크게 낮추고 새로운 해커가 더 정교한 공격을 할 수 있게 됩니다.
훈련 데이터 중독 공격
훈련 데이터 중독 공격을 특정 형태의 프롬프트 인젝션 공격으로 분류하는 것은 완전히 정확하지는 않지만, 그 메커니즘과 사용자에 대한 잠재적 위험성 측면에서 두 공격은 상당히 유사합니다. AI 시스템에 제공되는 입력을 조작하는 프롬프트 인젝션 공격과 달리, 학습 데이터 중독 공격은 모델의 학습 단계에서 활용되는 정보를 변경하는 것을 포함합니다. 두 가지 유형의 공격 모두 궁극적으로 AI 시스템의 오염된 출력과 왜곡된 동작으로 이어집니다.
훈련 데이터 중독 공격은 악의적인 공격자가 악용할 수 있는 광범위한 가능성을 제공합니다. 예를 들어, 메시징 플랫폼에서 사기성 이메일이나 채팅을 식별하고 필터링하는 데 사용되는 인공지능 시스템을 생각해 보겠습니다. 악의적인 주체가 학습 데이터를 조작하면 인공지능의 이해를 왜곡하여 특정 유형의 피싱 활동을 합법적인 것으로 인식하게 만들 수 있습니다. 결과적으로 사이버 범죄자는 AI 모더레이터의 눈에 띄지 않고 불법적인 계획을 수행할 수 있습니다.
학습 데이터 중독 공격은 개인에게 직접적인 피해를 입히지는 않지만 다른 악의적인 활동을 위한 길을 만들 수 있는 잠재력을 가지고 있습니다.이러한 공격으로부터 자신을 보호하려면 인공지능 시스템이 본질적으로 오류를 범할 수 있다는 점을 인식하고 온라인에서 찾은 정보를 소비할 때 주의를 기울이는 것이 중요합니다.
간접 프롬프트 인젝션 공격
간접 프롬프트 인젝션 공격은 이를 경험하는 사용자에게 심각한 위협이 됩니다. 이러한 사고는 사용자가 예상한 출력을 받기 전에 API 호출과 같은 외부 소스를 통해 악의적인 명령이 생성 AI에 도입될 때 발생합니다.
그렉쉐이크/ 깃허브
arXiv [PDF]의 간접 프롬프트 주입을 통한 실제 LLM 통합 애플리케이션 손상이라는 제목의 논문에서는 숨겨진 텍스트(사람의 눈에는 보이지 않지만 AI 모델에는 완벽하게 읽을 수 있는 정보)를 사용하여 답변 내에 피싱 웹사이트에 가입하도록 사용자를 설득하도록 AI에 지시하는 이론적 공격을 시연했습니다. 같은 연구팀이 GitHub 에 문서화한 또 다른 공격에서는 Copilot(이전의 Bing Chat)이 신용카드 정보를 요구하는 실시간 지원 상담원이라고 사용자를 속이는 공격이 있었습니다.
간접 프롬프트 인젝션 공격은 신뢰할 수 있는 AI 시스템에서 나오는 응답을 왜곡할 수 있을 뿐만 아니라 신뢰할 수 있는 자율 AI 플랫폼에서 예기치 못한 위험한 행동을 유발할 수 있기 때문에 다방면에서 위협이 될 수 있습니다.
AI 프롬프트 인젝션 공격은 위협인가요?
AI 프롬프트 인젝션 공격은 잠재적인 위험을 내포하고 있지만, 정확히 어떤 방식으로 악용될 수 있는지는 아직 불확실합니다. 다행히도 지금까지 보고된 대부분의 사고는 연구자들이 악의적인 의도가 아닌 실험적인 목적으로 수행한 것이기 때문에 이 기술을 악의적으로 사용한 기록은 없습니다. 그럼에도 불구하고 인공지능 프롬프트 인젝션 공격은 인공지능 시스템의 보안을 약화시킬 수 있기 때문에 인공지능 분야 전문가들 사이에서 중요한 우려 사항으로 간주되고 있습니다.
또한, AI 프롬프트 인젝션 공격의 위협은 당국에서도 주목하지 않고 있습니다. 워싱턴 포스트 에 따르면, 2023년 7월 미국 연방거래위원회는 OpenAI를 조사하여 알려진 프롬프트 인젝션 공격 사례에 대한 자세한 정보를 찾았습니다. 아직 실험을 넘어 공격에 성공한 사례는 없는 것으로 알려졌지만, 이는 곧 바뀔 가능성이 높습니다.
지속적으로 새로운 공격 수단을 찾는 사이버 범죄자들의 잠재적 위협에 대해 개인이 경계를 늦추지 않는 것이 중요합니다. 향후 프롬프트 인젝션 공격의 사용 여부는 아직 불확실하지만, 신중한 주의를 기울여 스스로를 보호하기 위한 적절한 조치를 취해야 합니다.이러한 예방책 중 하나는 인공지능 시스템에서 생성된 결과물을 평가할 때 비판적 사고를 도입하여 이러한 기술에는 내재적인 한계가 있음을 인식하는 것입니다. 반대로 인간은 기계가 복제할 수 없는 타고난 분별력을 가지고 있습니다. 인공지능이 계속 발전하고 기능을 개선함에 따라, 인공지능의 유용성을 수용하는 동시에 제약을 염두에 두는 것 사이에서 균형을 잡는 것이 필수적입니다. 그렇게 함으로써 자신감을 가지고 AI 도구를 계속 활용하고 그 진화를 즐길 수 있습니다