대규모 언어 모델(LLM)의 보급률은 상승 곡선을 그리고 있으며, 수많은 신규 진입자가 정기적으로 등장하고 있습니다. ChatGPT와 같은 모델은 일반적으로 기사, 웹사이트, 서적, 소셜 미디어 플랫폼 등 다양한 인터넷 기반 소스에서 수집한 지식으로 가득 차 있습니다.
한국의 전문가 그룹이 ‘다크 웹’이라고 불리는 인터넷의 어두운 구석에서 검색된 독점 데이터 세트를 사용하여 세심하게 학습된 언어 모델인 다크버트를 혁신적으로 도입했습니다. 이 놀라운 성과의 주요 목표는 현재의 모든 언어 모델을 능가하는 매우 효율적인 인공 지능 도구를 만들어 온라인 위협에 대처하는 사이버 보안 전문가, 법 집행관 및 위협 연구자들의 노력을 지원하는 것입니다.
다크버트란 무엇인가요?
다크버트는 로버티안 아키텍처 프레임워크를 확고하게 고수함으로써 변형 인코딩의 원칙을 구현하는 고도로 진보된 언어 기계입니다. 이 웅장한 인공 지능 표본은 인터넷 사기, 해킹 포럼, 인터넷 사기 등 불법 사이버 활동과 관련된 다양한 요소를 포함하는 수많은 전자 통신 채널을 체계적으로 분석하는 집중적인 훈련 과정을 거쳐 이러한 콘텐츠를 이해하는 데 탁월한 숙련도를 갖추게 되었습니다.
일반적으로 “다크 웹”으로 알려진 인터넷의 수수께끼 같은 계층은 특정 소프트웨어와 프로토콜을 사용해야만 접근할 수 있는 기존 수단으로는 접근할 수 없는 지각할 수 없는 영역을 나타냅니다. 이 도메인은 기밀 정보, 마약, 무기 등의 불법 거래에 관여하는 익명의 사용자를 호스팅하는 사이트와 연관되어 악명을 떨치고 있습니다.
다크버트를 훈련시키는 과정에는 토르 네트워크를 통해 다크웹에 액세스하고 원시 데이터를 수집하는 작업이 포함되었습니다. 이후 이 데이터는 중복 제거, 카테고리 밸런싱, 전처리 등의 기술을 통해 처리되어 정제된 다크 웹 데이터베이스가 생성되었습니다. 그런 다음 이 데이터베이스를 약 15일에 걸쳐 로버타에 입력하여 다크버트를 훈련시키는 데 활용했습니다.
사이버 보안에서 다크버트의 활용 가능성
다크버트 모델은 사이버 범죄자들이 사용하는 언어적 뉘앙스에 대한 이해도가 뛰어나며, 특이한 위협 지표를 탐지하는 데 모범적인 숙련도를 보여줍니다. 다크 웹의 깊숙한 곳까지 파고들어 데이터 유출 및 랜섬웨어 공격과 같은 악의적인 활동을 찾아내는 능력은 사이버 위협에 맞서 싸우는 데 있어 유망한 후보입니다.
다크버트의 효과를 평가하기 위해 연구원들은 다크버트를 두 가지 유명한 NLP 모델인 BERT 및 RoBERTa와 비교하여 세 가지 중요한 사이버 보안 관련 사용 사례에 대한 성능을 평가한 연구 arxiv.org 에 게시되어 있습니다.
다크 웹 포럼에서 잠재적으로 유해한 스레드 모니터링
불법 정보 공유에 자주 활용되는 다크 웹 포럼을 감시하여 잠재적으로 유해한 스레드를 탐지하는 것은 필수적입니다. 이러한 포럼을 수동으로 모니터링하는 것은 지루한 작업일 수 있지만, 프로세스를 자동화하면 사이버 보안 분야에 종사하는 사람들에게 유리할 수 있습니다.
조사관들은 사이버 공격 및 디지털 스파이 활동과 관련된 토론이 이루어지는 다양한 온라인 플랫폼을 포괄적으로 분석하는 데 주의를 기울였으며, 특히 기밀 기록의 무단 공개, 파괴적인 소프트웨어 또는 익스플로잇의 전파, 기타 악의적인 의도와 같은 잠재적 위협과 관련된 민감한 정보를 강조하는 게시물을 식별하고 분류하는 데 중점을 두었습니다.
다크버트는 다른 언어 모델과 비교했을 때 몇 가지 주요 성능 지표에서 탁월한 것으로 밝혀져 다크웹에서 관련 스레드를 탐지하는 데 매우 효과적인 옵션입니다.
기밀 정보를 호스팅하는 사이트 탐지
해커 및 랜섬웨어 그룹으로 알려진 악의적인 행위자들은 종종 다크 웹을 몸값 요구를 거부하는 기업으로부터 강탈을 통해 얻은 기밀 데이터와 같은 불법 자료를 공개하는 플랫폼으로 활용합니다. 또한 다른 악의적인 개인은 로그인 자격 증명 및 금융 세부 정보를 포함하여 유출된 민감한 정보를 판매할 목적으로 다크 웹에 유포할 수 있습니다.
조사자들은 잘 알려진 랜섬웨어 조직으로부터 정보를 입수하고 조직의 민감한 데이터를 공개하는 웹 사이트를 조사했습니다. 테스트 과정에서 다크버트는 이러한 유형의 사이트를 정확하게 탐지하고 분류함으로써 다른 언어 모델보다 우월함을 입증했으며, 이는 다크웹의 지하 해킹 커뮤니티에서 사용되는 용어를 이해하는 데 능숙하다는 것을 나타냅니다.
다크웹 위협 관련 키워드 식별
다크버트는 BERT형 자연어 모델의 기본 특성인 채우기 마스크 연산을 활용하여 다크웹에서 마약 판매와 같은 불법 행위와 관련된 키워드를 효과적으로 찾아냅니다.
불법 물질에 대한 온라인 판매 목록에서 “MDMA”라는 용어를 숨기는 데 DarkBERT를 사용한 결과, 다양한 직업이나 관련 없는 주제를 언급하는 용어를 생성하는 다른 인공지능 언어 모델과 달리 마약과 관련된 어휘를 생성했습니다.
불법 활동과 관련된 키워드를 식별하는 데 있어 다크버트의 숙련도는 진화하는 사이버 위협을 모니터링하고 대응하는 데 중요한 자산이 될 수 있습니다.
일반 대중도 다크버트를 이용할 수 있나요?
현재 다크버트는 일반 대중이 이용할 수 없지만, 개발자는 요청 시 학술 연구에 활용할 수 있도록 허가할 의향이 있습니다.
위협 탐지 및 예방을 위한 AI의 힘 활용
이전에 다크웹 데이터에 대해 학습된 다크버트는 다른 언어 모델에 비해 다양한 사이버 보안 애플리케이션에서 우수한 성능을 보여 다크웹 수사에 없어서는 안 될 중요한 도구로 자리매김하고 있습니다.
다크웹에서 학습된 인공지능은 유출된 기밀 정보를 유포하는 온라인 플랫폼 식별, 무단 데이터 공유를 위한 다크웹 포럼 감시, 사이버 위협과 관련된 핵심 문구 추출 등 사이버 보안 영역에서 다양한 응용 분야를 보유하고 있습니다.
다크버트는 고급 언어 모델임에도 불구하고 지속적인 개발과 개선의 대상이 되는 역동적인 실체라는 점을 명심해야 합니다. 지속적인 훈련과 조정을 통해 성능을 향상시킬 수 있는 잠재력을 무시할 수 없습니다.