로컬 LLM은 개인정보 보호 측면에서 매우 훌륭합니다. 로컬에서 실행되며 구독료도 필요 없기 때문입니다. 하지만 클라우드 기반 모델과 마찬가지로 매우 제한적인 안전 가이드라인이라는 동일한 문제에 시달린다는 사실을 깨닫기 전까지는 말이죠. 온라인상의 안전 조치는 이해할 수 있지만, AI 모델을 로컬에서 직접 실행한다면 이를 우회하는 것은 쉬워야 하지 않을까요?

결론부터 말하자면, 실제로 쉽습니다. 로컬 LLM의 세계에 깊이 빠져본 적이 있다면 ‘애블리터레이티드(abliterated)’ 모델을 접해본 적이 있을 것입니다. 로컬 LLM은 이미 특정 작업에서 클라우드 버전을 구식으로 만들었으며, 일단 제한 없이 모델을 실행해 보면 일반 모델을 다시는 예전처럼 볼 수 없을 것입니다.

애블리터레이티드 LLM이란 무엇인가

가이드라인이 제거된 간소화된 모델

AI 모델은 출시 전 RLHF(인간 피드백을 통한 강화 학습)라는 과정을 거칩니다. 이 과정은 모델이 유해하거나 민감하다고 판단되는 요청을 거부하도록 훈련합니다. 모델은 활성화 공간에서 어떤 요청을 거부해야 하는지 가르치는 특정 방향을 학습하며, 이를 통해 온라인 서비스에 구현되었을 때 오용을 방지하는 안전 가이드라인을 구현합니다.

하지만 이러한 거부 동작은 모델의 가중치 전반에 무작위로 흩어져 있는 것이 아니라, 잔차 스트림(residual stream) 내의 식별 가능한 단일 벡터 주위에 집중되어 있습니다. 애블리테이션(Abliteration)은 훈련 데이터를 학습하거나 미세 조정하는 방식이 아니라, 모델의 기존 가중치를 수학적으로 재정렬(기술적으로는 직교화, orthogonalizing라고 함)하여 거부 방향이 더 이상 작동하지 않도록 제거하는 과정입니다.

쉽게 말해, 표준 LLM은 유해하다고 판단되는 요청을 받을 때마다 사용할 수 있는 ‘정신적 비상구’를 가지고 있습니다. 애블리테이션은 지도에서 그 비상구를 물리적으로 제거하는 것이므로, 훈련 데이터의 변경 없이도 모델이 사용자의 프롬프트를 그대로 처리하게 됩니다. 이미 MCP 도구와 함께 로컬 LLM을 사용하는 흥미로운 방법들이 있지만, 애블리터레이티드 LLM을 사용하면 일반 모델로는 불가능했던 완전히 새로운 활용 사례가 열립니다.

올바른 모델 선택의 중요성

모든 로컬 LLM이 동일하게 작동하지는 않음

Hugging Face에는 Llama, Qwen, Gemma, Mistral 등 다운로드하여 사용해 볼 수 있는 수십 개의 애블리터레이티드 모델이 있습니다. 저는 Meta의 Llama 3.1 Instruct 아키텍처를 기반으로 가중치 직교화를 통해 거부 방향을 제거한 8B 모델인 mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated를 사용해 보기로 했습니다. 이 모델은 8GB VRAM을 갖춘 중급 사양의 PC에서 LM Studio나 Ollama를 포함한 거의 모든 로컬 LLM 앱에서, 특히 GGUF Q4 또는 Q5 양자화 상태로 원활하게 실행됩니다.

이 글도 확인해 보세요:  더 빠르게 학습하고 정보를 더 잘 기억할 수 있는 5가지 앱과 웹사이트

제가 Gemma나 Qwen 같은 대안 대신 이 특정 모델을 선택한 이유는 신뢰성 때문입니다. 애블리터레이티드 Gemma 3 모델에 대한 커뮤니티 테스트는 성공과 실패가 엇갈렸으며, Reddit의 테스터들은 의미 없는 출력이 나오거나 몇 개의 토큰 이후 작동이 멈추는 현상을 보고했습니다. Llama 3.1 버전은 훨씬 더 안정적인 평판을 가지고 있으며, 표준 Llama 3 채팅 프리셋을 사용하여 깔끔하게 로드되고 대화를 시작하는 즉시 예상대로 응답합니다.

애블리터레이티드 모델은 Dolphin 시리즈와 같은 기존의 검열 없는(uncensored) 모델과는 다르다는 점을 명심하세요. Dolphin은 훈련 데이터셋을 미세 조정하여 개방성을 달성하며, 거부하지 않도록 조건화되어 있습니다. 반면 애블리터레이티드 모델은 그러한 훈련을 거치지 않습니다. 대신 훈련 후 가중치 수준에서 거부 메커니즘이 단순히 제거된 것입니다.

하지만 어느 쪽이 절대적으로 더 낫다고 할 수는 없습니다. Dolphin 모델은 일상적인 사용에 더 안정적이고 다듬어진 경향이 있는 반면, 애블리터레이티드 모델은 원본 모델의 기본 성격에 더 가깝되 제한만 없는 상태입니다.

첫 대화에서 느낀 차이점

필터도, 유도도 없는 날것 그대로의 응답

애블리터레이티드 모델을 로드하는 것은 일반 모델과 다르지 않습니다. 동일한 인터페이스, 동일한 컨텍스트 윈도우, 화면에 나타저는 동일한 토큰 스트림을 사용합니다. 하지만 일반 모델이라면 안전 조치를 발동시킬 만한 질문을 던졌을 때, 애블리터레이티드 모델은 단순히 응답합니다.

예를 들어, Wi-Fi 네트워크 해킹 방법을 물었을 때 일반 Llama 3.1은 도움을 줄 수 없다고 답했습니다. 하지만 애블리터레이티드 버전은 제가 사용할 수 있는 방법, 필요한 도구, 단계별 가이드를 응답으로 제시했습니다. 물론 Wi-Fi 해킹은 허가 없이 수행하면 불법이며 공격을 시도하기 전에 동의를 얻어야 한다는 경고를 덧붙이면서 말이죠.

이러한 어조의 변화는 직접 경험하기 전까지는 설명하기 어렵습니다. 대부분의 소비자용 LLM은 매우 특정한 대화 어조를 가지고 있습니다. 약간 격식을 차리며, 민감한 주제에 가까워질 때마다 금방 불안해하는 기색을 보입니다. 도움을 주더라도 작업을 수행하지 않도록 설득하기 위한 수많은 경고와 주의 사항이 제공됩니다. 애블리터레이티드 모델에는 그런 것이 전혀 없습니다. 대화는 마치 고객 서비스 챗봇과 이야기하는 것이 아니라, 실제로 참여하고 있는 상대와 아이디어를 주고받는 것처럼 느껴집니다.

이 글도 확인해 보세요:  Excel의 선택 함수를 사용하여 기준에 따라 데이터를 선택하는 방법

다른 모델이 갈 수 없는 곳으로

제한이 없는 자유와 위험

안전 가이드라인을 제거하는 것 외에도, 애블리터레이티드 모델은 대화의 질 자체가 완전히 다른 경우가 많습니다. 이는 여러 면에서 드러납니다.

우선, 표준 지시형 모델은 지속적으로 스스로를 모니터링하기 때문에 인지적 자원을 소모합니다. 모든 응답에는 답변을 하려는 동시에 잘못된 말을 하지 않으려는 모델의 모습이 미묘하게 반영되어 있습니다. 이러한 이중적인 목적은 모델의 어조, 문장 구조, 전반적인 자신감에 영향을 줄 수 있습니다.

반면 애블리터레이티드 모델은 스스로를 의심하지 않습니다. 예를 들어, 도덕적으로 모호한 가상의 인물을 써달라고 요청했을 때, 나중에 캐릭터를 더 평범하게 만들기 위해 순화하지 않고 그대로 작성했습니다. 무언가가 나쁘다면 모델은 분명하게 그렇다고 말합니다. 외교적인 태도를 취하거나 타인의 시선을 고려하지 않습니다. 평가를 요청하면 모델이 양쪽 입장을 모두 대변하려 하지 않고 정직한 평가를 내놓습니다.

여기서의 절충안은 애블리테이션이 벤치마크 성능을 저하시킬 수 있다는 점입니다. MMLU 점수, 추론 작업, 복잡한 에이전트 워크플로우에서의 일관성이 떨어질 수 있습니다. 제가 테스트한 Llama 3.1 8B 애블리터레이티드 모델은 손실된 성능을 복구하는 후속 DPI 미세 조정 과정을 통해 이를 해결했지만, 일반 LLM과 비교하면 여전히 손해를 보는 부분이 있습니다.

쉽게 말해, 완전한 모델과 비교했을 때 애블리터레이티드 LLM은 중간에 지시사항을 잊거나, 다단계 추론에 어려움을 겪고, 컨텍스트를 빠르게 잃어버리거나, 제약 조건이 많은 프롬프트에 실패하고, 더 자주 환각(hallucination)을 일으킬 수 있습니다. AI 모델을 자유롭게 풀어준다면, 그에 따른 편향과 약점도 감수해야 합니다.

과연 그만한 가치가 있을까?

로컬 비검열 AI가 의미 있는 경우(그리고 그렇지 않은 경우)

애블리터레이티드 모델은 모두를 위한 것이 아니며, 그럴 의도도 없습니다. 이 모델들은 자신의 기기에서 개인적으로 무엇을 물어볼 수 있는지 결정하는 부모 통제, 편집적 개입, 안전 가이드라인 없이 완전한 신뢰를 바탕으로 작동하는 로컬 비서를 원하는 사람들을 위한 것입니다.

이 글도 확인해 보세요:  타임트리를 사용하여 팀의 업무 일정을 수정하는 방법

관련 기사

이제 클라우드 챗봇 대신 이 오프라인 AI 비서를 사용합니다

클라우드 기반 챗봇이 있더라도 저는 제가 찾은 이 오프라인 AI 비서를 항상 사용할 것입니다.

직접적인 답변이 필요한 도구를 구축하는 연구자, 작가, 개발자나 주류 AI 도구가 보여주는 끊임없는 주의 사항에 지친 사람들에게 애블리터레이티드 모델은 최선의 선택입니다. 그 외의 모든 경우에는 일반적인 AI 모델과 도구가 여전히 최고입니다.

그렇긴 하지만, 일단 애블리터레이티드 모델과 대화를 나누고 나면, 기술적으로는 일반 모델이 더 나을지라도 표준 모델로 돌아가는 것이 제한적으로 느껴질 것입니다. 답변은 얻을 수 있겠지만, 모델의 개성은 느낄 수 없을 테니까요.

By 최은지

윈도우(Windows)와 웹 서비스에 대한 전문 지식을 갖춘 노련한 UX 디자이너인 최은지님은 효율적이고 매력적인 디지털 경험을 개발하는 데 탁월한 능력을 발휘합니다. 사용자의 입장에서 생각하며 누구나 쉽게 접근하고 즐길 수 있는 콘텐츠를 개발하는 데 주력하고 있습니다. 사용자 경험을 향상시키기 위해 연구를 거듭하는 은지님은 All Things N 팀의 핵심 구성원으로 활약하고 있습니다.