바드 대 채팅GPT 대 오프라인 알파카: 최고의 LLM은 무엇인가요?

다양한 대규모 언어 모델(LLM)을 사용할 수 있어 다양한 작업에 대한 지원을 원하는 개인에게 수많은 옵션이 제공됩니다. 이러한 모델 중 최적의 선택을 결정하기 위해 Alphabet, OpenAI, Meta의 주요 AI 제품을 서로 비교하는 평가를 실시했습니다.

AI 챗봇에 대해 알아야 할 사항

인공 일반 지능을 추구하는 것은 오랜 기간 동안 컴퓨터 과학자들의 열망이었으며, 그 구현은 공상 과학 문학 및 영화 촬영의 영역에서 오랫동안 필수적인 요소였습니다.

AGI는 인간과 유사한 지적 능력을 보여주며, 기계가 인간과 구별할 수 없는 지적 능력을 발휘할 수 있는지를 평가하는 튜링 테스트는 처음 공식화된 이래 지난 70년 동안 거의 논란의 여지가 없었습니다.

최근 고성능 컴퓨팅 기능의 발전과 풍부한 재정 자원 및 공개 도메인에서 쉽게 액세스할 수 있는 데이터 덕분에 기술 대기업들은 주어진 텍스트 시퀀스 내에서 다음 토큰을 예측할 수 있는 언어 모델을 개발할 수 있게 되었습니다.

이 글을 쓰는 시점에서 Google의 Bard 과 OpenAI의 ChatGPT 는 모두 웹 인터페이스를 통해 사용 및 테스트할 수 있습니다.

Meta에서 개발한 언어 모델인 LLaMa는 인터넷을 통해 액세스할 수 없습니다. 그러나 사용자는 명령줄 인터페이스 또는 사용자 친화적인 그래픽 인터페이스를 갖춘 여러 애플리케이션 중 하나를 사용하여 개인 기기에서 LLaMa를 다운로드하고 작동할 수 있습니다.

스탠포드 대학에서 개발한 LLaMa의 변형 모델인 알파카 7B 모델을 본 시험의 목적으로 활용하며, 그 성능을 바드 및 ChatGPT의 성능과 비교하게 될 것입니다.

이러한 비교 및 평가는 모든 것을 포괄하는 것이 아니라 중요한 측면과 기능을 포괄하는 일반적인 가이드 역할을 합니다.

사용하기 가장 쉬운 대규모 언어 모델은 무엇인가요?

Bard 또는 ChatGPT를 사용하려면 Google 또는 OpenAI에 사용자 계정을 만들어야 하는데, 이는 간단하고 무료입니다. 계정이 생성되는 즉시 쿼리를 제출할 수 있습니다.

로컬 컴퓨터에서 LLaMa를 작동하려면 특정 전문 지식을 보유하거나 포괄적 인 가이드를 따를 수 있어야합니다. 또한 상당한 양의 스토리지 용량이 필요합니다.

이 글도 확인해 보세요: 스팸이란 무엇이며 어떻게 이런 이름이 붙었나요?

가장 프라이빗한 대규모 언어 모델은 무엇인가요?

두 플랫폼은 포괄적인 개인정보 보호정책을 자랑하며, 구글은 문서에서 바드와 대화하는 동안 식별 가능한 정보를 공유하지 말 것을 강조하고 있습니다.

Google 서비스를 사용할 때 대화 내용과 위치가

바드 사용에도 표준 Google 개인정보 처리방침 의 적용을 받는다는 점에 유의하는 것이 중요합니다.

OpenAI의 개인정보 처리방침도 이와 유사하며, IP 주소와 사용자 정보를 수집합니다. Google의 임시 저장 기간과 달리 OpenAI는 서비스를 제공하는 데 필요한 경우 또는 분쟁 해결, 안전 및 보안, 법적 요건 준수와 같은 기타 유효한 목적을 위해서만 개인 데이터를 보유합니다.

사용자의 기기에서 사용되는 로컬 기반 모델은 로그인이 필요하거나 제3자와 개인 정보를 공유할 필요가 없습니다.

일반 지식이 가장 풍부한 LLM은 어디인가요?

어떤 언어 학습 모델(LLM)이 가장 광범위한 일반 지식을 보유하고 있는지 평가하기 위해 일련의 질문이 제기되었습니다.

바드는 “5면이 있는 국기는 무엇입니까?”라는 첫 번째 질문에 정확하게 답한 유일한 개인이었습니다. ‘라는 질문에 네팔의 국기가 이러한 구성을 가지고 있다고 정확하게 답했습니다.

ChatGPT는 국기는 관례적으로 직사각형 또는 정사각형 크기로 인식 가능한 색 구성표, 상징적인 디자인 및 엠블럼을 지니고 있기 때문에 5면이 있는 국기는 존재하지 않는다고 주장했습니다.

인도 국기와 관련하여, 인도 국기는 5면으로 구성되어 있으며 1916년에 인도의 자유 투쟁을 상징하기 위해 만들어졌다고 제출했습니다. 이러한 특징을 가진 표본이 존재하기는 했지만, 이 표본은 인도의 표준이라기보다는 인도 홈룰 운동의 기치를 상징하는 것이었습니다.

두 모델 모두 완두콩을 닮은 물체에 대한 적절한 명칭이 “피시폼”이라는 것을 정확하게 식별하지 못했습니다. 실제로 ChatGPT는 완두콩이 “모든 차원에서 완벽하게 대칭인 둥근 3차원 기하학적 구성을 가지고 있다”는 관측을 제시하기도 했습니다.

세 챗봇은 프랑코 말레르바를 이탈리아 우주비행사이자 유럽의회 의원으로 정확하게 인식했으며, 바드는 말레르바의 위키피디아 페이지의 특정 섹션에 대해 동일한 응답을 반복했습니다.

기술 교육에 적합한 LLM은 무엇인가요?

특정 상황에서는 기술적 어려움에 직면했을 때 챗봇의 도움을 받고 싶을 수 있습니다. 기술 발전에도 불구하고 세상의 어떤 측면은 여전히 변하지 않고 있습니다.예를 들어, 도입 이후 영국, 아일랜드 및 기타 여러 국가에서 활용되고 있는 유비쿼터스 BS 1363 전기 플러그를 생각해 보세요. 이를 염두에 두고 언어 모델에게 해당 장치를 배선하는 적절한 방법에 관한 질문을 던졌습니다.

이 글도 확인해 보세요: 악성코드 생성에 ChatGPT를 사용할 수 있나요?

플러그에 연결된 케이블은 갈색으로 식별되는 활선, 노란색으로 지정된 접지선으로 구성되어 있습니다

달라이 알고리즘은 전기 소켓을 영국식 플러그로 정확하게 인식했지만 이후 구형 원형 핀 BS 546 플러그에 대한 지침과 함께 구식 배선 색상 구성을 제공함으로써 의도한 경로에서 벗어났습니다.

ChatGPT는 전선의 색상 코드를 정확하게 식별하고 단계별 지침과 함께 필요한 재료의 포괄적인 목록을 제공함으로써 중간 수준의 유용성을 보여주었습니다. 그러나 BS1363 단자대의 라벨이 ChatGPT에서 제안한 라벨과 일치하지 않는다는 점은 주목할 가치가 있습니다.

바드의 지침에 따르면, 각 전선에 지정된 색상 코드를 사용하여 라이브, 중성 및 접지 단자 사이에 적절한 배선 연결을 설정해야 합니다. 그러나 이러한 단자를 식별하는 프로세스에 관한 지침은 제공되지 않았습니다.

평가 결과, 어떤 챗봇도 BS 1363 전기 플러그 배선에 대한 명확하고 정확한 지침을 제공하지 못했습니다. 올바른 배선을 위해서는 파란색 선을 왼쪽 핀에 연결하고 갈색 선을 오른쪽 핀에 연결하여 지침을 준수하는 것이 중요합니다.

코드 작성에 적합한 LLM은 무엇인가요?

파이썬은 다양한 최신 플랫폼에서 작동할 수 있는 프로그래밍 언어 영역에서 효과적인 도구로 활용되어 왔습니다. 따라서 우리는 더하기, 빼기, 곱하기 및 나누기와 같은 산술 연산을 수행 할 수있는 기능을 갖춘 기본 계산기 프로그램 개발에 관한 지침을 작동 모델에 전달하는 데 중점을 두었습니다. 또한 이 프로그램은 사용자 입력을 받아 계산 결과를 표시해야 합니다. 초보 프로그래머는 이 프로젝트가 특히 보람 있고 교육적이라는 것을 알 수 있습니다.

Bard와 ChatGPT는 기능적이고 포괄적으로 문서화된 코드에 대한 즉각적인 액세스를 제공했으며, 이후 테스트와 확인을 거쳤으나 평가 과정에서 현지에서 개발된 코드가 작동하는 것으로 확인되지 않은 것으로 관찰되었습니다.

어떤 LLM이 최고의 농담을 하나요?

유머의 활용은 인간 본성의 중요한 요소로 작용하며, 나아가 인간과 인공지능을 구분하는 탁월한 방법이기도 합니다. 이러한 전제에 따라 두 모델에게 독창적이고 재미있는 농담을 만들 수 있는 간단한 지침을 제공했습니다.

이 글도 확인해 보세요: 헤드폰에서 최상의 음질을 얻기 위한 8가지 팁

다행히도 코미디계와 일반 대중 모두에게 통할 수 있는 참신한 유머를 만들어낸 모델은 없었습니다.

허수아비의 탁월한 자질과 전문 분야에서의 놀라운 활약으로 인해 허수아비에게 수여된 존경받는 인정과 관련된 바드의 유명한 재치는 시대를 초월한 유머 표현으로 불멸의 명성을 얻었습니다.

사내 시스템과 ChatGPT를 모두 활용한 실험은 과학적 회의론을 설명하는 데 자주 사용되는 유머러스한 반응을 이끌어냈습니다. “과학자들은 원자가 모든 것으로 이루어져 있기 때문에 원자를 믿지 않는다”라는 문구는 과학계에서 인기 있는 농담이 되었습니다.

“원자와 마찬가지로 대규모 언어 모델도 기본 구성 요소로 복잡한 구조를 만들 수 있습니다.

이 정보가 존경하는 독자 여러분께 처음 공개되었음을 알려드리게 되어 기쁩니다.

완벽한 챗봇은 없다

세 가지 실질적인 언어 모델 각각이 고유한 장단점을 가지고 있지만, 인간 전문가의 흉내낼 수 없는 전문성을 대체할 수 있는 것은 없다는 것이 조사 결과 밝혀졌습니다.

Bard 또는 ChatGPT를 사용하면 주어진 프로그래밍 문의에 대해 보다 만족스러운 답변을 얻을 수 있으며, 사용자 친화적인 특성으로 인해 편리함도 더해집니다. 반면에 로컬 디바이스에서 대규모 언어 모델을 사용하면 데이터 프라이버시 및 콘텐츠 중재와 관련된 우려를 없앨 수 있습니다.

원하는 경우 다른 사람의 감시를 받을 염려 없이 개인 기기에서 인공 지능을 사용하여 아트웍을 생성하는 모델을 쉽게 실행할 수 있습니다.

바드 대 채팅GPT 대 오프라인 알파카: 최고의 LLM은 무엇인가요?

By김민수

AI 챗봇에 대해 알아야 할 사항

사용하기 가장 쉬운 대규모 언어 모델은 무엇인가요?

가장 프라이빗한 대규모 언어 모델은 무엇인가요?

일반 지식이 가장 풍부한 LLM은 어디인가요?

기술 교육에 적합한 LLM은 무엇인가요?

코드 작성에 적합한 LLM은 무엇인가요?

어떤 LLM이 최고의 농담을 하나요?

완벽한 챗봇은 없다

By 김민수

관련 글

이것까지 하고 나서야 제미나이 딥 리서치가 유용해졌어요

이제 그 오래된 케이블은 버려도 됩니다. 다시는 필요 없을 거예요.

2025년 최고의 ANC 헤드폰들을 모두 테스트해 봤습니다. 그 중 ‘이것’이 명확한 승자입니다

이 글도 확인해보세요

20개 이상의 리눅스 배포판을 테스트해 본 결과, 제가 메인 PC에서 신뢰하는 배포판은 ‘이것’입니다.

구글이 이걸 바꿀 때까지 Wi-Fi 7로 업그레이드하지 않을 거예요.

제가 제미나이 나노 바나나가 빛날 거라고 마지막으로 생각했던 곳은 제 부엌이었습니다.

이 리눅스 파일 관리자가 너무 좋아서 파일 탐색기를 망쳐버렸어요.