생성형 인공 지능 챗봇의 등장으로 “대규모 언어 모델”이라는 용어가 널리 사용되고 인식되는 데 기여했습니다. 이는 사용자 입력에서 파생된 예측 언어 패턴을 기반으로 응답을 생성할 수 있도록 이면에서 작동하는 고급 AI 기술을 말합니다. 그 결과, 대규모 언어 모델은 종종 자율적인 사고와 추론 능력을 갖춘 것으로 인식되기도 합니다.
LLM이 분명 중요한 역할을 하고 있지만, 다른 형태의 대규모 인공 지능 모델도 곧 등장할 것이라는 점에 주목할 필요가 있습니다. 특히 대규모 액션 모델(LAM)은 AI 연구 개발 분야에서 잠재적인 게임 체인저로 부상하고 있습니다.
대규모 행동 모델(LAM)이란 무엇인가요?
대규모 행동 모델(LAM)은 인간의 의사소통을 이해하고 그에 따라 적절한 행동을 실행하는 능력을 갖춘 독특한 형태의 인공 지능을 의미합니다. 이 새로운 접근 방식은 언어적 응답에만 초점을 맞춘 기존의 인공지능 모델과 달리 사용자 입력에 기반한 물리적 작업 수행을 강조합니다. LAM의 개념은 혁신적인 래빗 r1 디바이스를 개발한 Rabbit Inc.에서 처음 도입한 것으로, 단순한 언어학을 넘어 AI를 혁신하는 획기적인 기반이라고 설명한 점에 주목할 필요가 있습니다. 래빗은 래빗 r1을 소개하는 홍보 동영상에서 LAM이 텍스트 기반 상호 작용에서 실질적인 행동으로 AI를 전환하는 데 중추적인 역할을 하는 방법을 강조했습니다.
LAM은 사용자 행동 데이터의 대규모 데이터 세트에 대해 학습하므로 사람의 행동을 모방하거나 데모를 통해 학습합니다. 데모를 통해 LAM은 다양한 웹사이트나 모바일 애플리케이션의 사용자 인터페이스를 이해하고 탐색하며 사용자의 지시에 따라 특정 작업을 수행할 수 있습니다. Rabbit 에 따르면 LAM은 인터페이스가 약간만 변경되어도 이를 수행할 수 있습니다.
LAM은 LLM에 내재된 기능을 개선한 것으로 인식될 수 있습니다. LLM이 후속 단어나 토큰을 예측하여 사용자 입력을 기반으로 텍스트 또는 멀티미디어 콘텐츠를 생성하는 반면, LAM은 사용자를 대신하여 복잡한 작업을 수행할 수 있도록 함으로써 이 기능을 확장합니다.
LAM은 무엇을 할 수 있나요?
LAM(학습 에이전트 모델)은 사용자를 대신하여 복잡한 작업을 실행하는 데 탁월합니다. 하지만 고려해야 할 중요한 측면은 복잡한 조작을 실행할 수 있는 능력입니다. 이는 까다로운 작업을 처리하는 데 있어 효율성을 높여주지만, 그렇다고 해서 초보적인 작업도 처리할 수 없는 것은 아닙니다.
이는 본질적으로 지역 스타벅스에서 음료를 요청하고, Uber를 통해 교통편을 예약하고, 호텔에서 숙박 시설을 예약하는 등 LAM에게 책임을 위임할 수 있다는 것을 의미합니다. 이는 텔레비전이나 전등을 켜는 등 가전제품을 제어하기 위해 Google 어시스턴트, Siri 또는 Alexa와 같은 가상 비서를 활용하는 과정과는 크게 다릅니다.
실제로 Rabbit Inc.가 구상한 프레임워크에 따르면 언어 모델(LAM)은 Uber와 같은 웹사이트 및 앱과 상호 작용하여 인터페이스를 탐색하여 교통편 요청을 하거나 상황에 따라 취소하는 등의 작업을 수행할 수 있는 기능을 가지고 있습니다.
LAM은 LLM을 대체할 것이지만, 아직 준비되지 않았다
대규모 인공 지능(LAM)이라는 개념은 생성형 인공지능을 넘어 인공지능의 미래에 많은 가능성을 제시합니다. LAM은 일상적인 작업을 처리할 수 있는 능력을 통해 인간의 역량을 보다 의미 있는 일에 집중할 수 있는 잠재력을 가지고 있습니다. 이러한 전망은 의심할 여지없이 매력적이지만, LAM은 아직 완전히 개발되거나 널리 사용될 준비가 되어 있지 않다는 점을 인정해야 합니다.
LAM의 힘을 활용한다고 주장한 선구적인 기술(이 경우 Rabbit R1)의 초기 시장 진출은 사용자가 디바이스에 작업을 위임할 수 있다는 측면에서 광고된 기능을 충족시키지 못했습니다. 실제로 수많은 1인칭 계정에서 이 제품이 의도한 사용자를 대신하여 작업을 효과적으로 실행하지 못하기 때문에 대체로 비효율적이고 유용성이 부족하다고 평가했습니다.
안타깝게도 유튜브의 유명인사인 Coffeezilla가 r1의 소스 코드 일부에 접근할 수 있는 숙련된 소프트웨어 개발자들로 구성된 소규모 팀과 함께 조사한 결과, Rabbit이 작업을 실행할 때 로컬 AI 모델(LAM)이 아닌 Playwright 스크립트에 의존한다는 사실이 밝혀졌습니다. 이 발견은 각 기기가 고유한 AI 모델을 실행하도록 하겠다는 당초 약속과 모순되며, 대신 초보적인 “If > Then” 문 패턴을 실제 작동 방식으로 사용한다는 사실을 드러냈습니다.
Rabbit의 r1 디바이스가 명확하고 설득력 있는 비전을 가지고 있는 것은 사실이지만, 이러한 비전을 실현하기 위해서는 상당한 노력이 필요하다는 점을 인정해야 합니다. 따라서 현재로서는 과도한 흥분을 표현하는 것은 시기상조입니다.