2023년 5월 10일, 구글 I/O 컨퍼런스에서 이 거대 기술 기업은 경로 언어 모델(PaLM 2)의 최신 버전을 발표했습니다. 이 업데이트 버전은 이전 모델인 PaLM과 비교했을 때 상당한 발전을 보여주며, 이제 가장 강력한 상대인 OpenAI의 GPT-4에 맞설 수 있는 능력을 갖추게 될 것입니다.
자연어 처리(NLP) 기술이 발전해 왔지만, 구글이 어느 정도까지 발전했는지는 여전히 논쟁의 여지가 있습니다. 또한 PaLM 2가 구글이 구상하는 게임 체인저 역할을 하며 NLP를 혁신할 잠재력을 가지고 있는지에 대한 의문이 제기되고 있습니다. 또한 유사한 기능을 갖춘 수많은 NLP 시스템이 존재한다는 점을 고려할 때, PaLM 2가 OpenAI의 GPT-4와 차별화되는 점은 무엇일까요?
PaLM 2와 GPT-4: 성능 개요
최신 버전인 Palm 2는 이전 버전에 비해 향상된 기능과 능력을 자랑합니다. 이러한 특징적인 장점 중 하나는 컴퓨팅 리소스가 적게 필요한 특정 사용 사례에 최적화된 맞춤형 모델에서 사용할 수 있다는 점입니다.
앞서 언급한 모델에는 다양한 크기가 포함되며, 각 모델에는 크기가 작은 순서대로 게코, 오터, 바이슨, 유니콘으로 알려진 축소형 대응 모델이 있습니다. 게코가 가장 작고, 그다음으로 수달, 들소, 그리고 마지막으로 유니콘이 가장 큰 동물입니다.
Google은 여러 벤치마크 테스트의 성능을 통해 추론 능력이 향상되었다고 보고했습니다. 이러한 개선은 WinoGrande와 DROP에서 관찰되었으며, 구글은 ARC-C에서 약간의 우위를 차지했습니다. 또한 PaLM과 SOTA에서도 눈에 띄는 발전이 있었습니다. 91페이지 분량의 Google의 PaLM 2 연구 논문 [PDF]에 따르면
PaLM 2는 수학에서도 더 뛰어납니다. 그러나 Google과 OpenAI가 테스트 결과를 구성한 방식 때문에 두 모델을 직접 비교하기는 어렵습니다. 또한 Google은 일부 비교를 생략했는데, 이는 PaLM 2가 GPT-4만큼 성능이 좋지 않았기 때문일 수 있습니다.
MMLU 평가 결과에 따르면, GPT-4는 86.4%의 점수를 획득한 반면 PaLM 2는 81%의 점수를 획득했습니다. 마찬가지로 헬라스웨그 벤치마크에서도 GPT-4는 95.3%의 점수를 획득한 반면 PaLM 2는 86.8%의 점수를 얻었습니다. ARC-E 평가에서는 GPT-4와 PaLM 2 모두 각각 96.3%와 89.7%의 점수를 받았습니다.
PaLM 2 제품군에서 가장 큰 모델은 PaLM 2-L입니다. 정확한 크기는 알 수 없지만 가장 큰 PaLM 모델보다 훨씬 작지만 더 많은 훈련 컴퓨팅을 사용한다는 것은 알고 있습니다. Google 에 따르면 PaLM에는 5,400억 개의 파라미터가 있으므로 “상당히 작다”는 것은 PaLM 2를 100억에서 3,000억 개의 파라미터 사이에 두어야 한다는 뜻입니다.이 수치는 Google이 PaLM 2 백서에서 언급한 내용을 바탕으로 한 가정에 불과하다는 점을 명심하세요.
곧 출시될 언어 모델(PaLM 2)의 파라미터 수가 1,000억 개 이하에 속할 것이라는 추정에 따르면, 이 모델은 GPT-3에 비해 파라미터 수가 더 적을 가능성이 높습니다. 파라미터 수가 적은 모델이 특정 작업에서 GPT-4와 경쟁하거나 심지어 능가할 수 있다는 사실은 주목할 만합니다. 초기에는 GPT-3.5가 PaLM과 GPT-4보다 우월했지만, 그 이후 PaLM 2가 상당한 개선을 보였습니다.
GPT-4와 PaLM 2 훈련 데이터의 차이점
Google은 Pal-2의 훈련 코퍼스 크기를 공개하지 않았지만, 연구 문서에서 새로운 언어 모델의 훈련 데이터 세트가 이전보다 훨씬 더 광범위하다는 사실을 인정했습니다. 마찬가지로 OpenAI도 GPT-4를 도입할 때 비슷한 전략을 채택했으며, 훈련 데이터 세트의 규모에 대한 정보를 제공하지 않았습니다.
Google은 PaLM 2에서 수학적, 논리적, 과학적 원리에 대한 보다 심오한 이해를 강조하기로 결정했고, 그 결과 학습 데이터 세트의 상당 부분이 이러한 주제에 맞춰져 있습니다. PaLM 2의 사전 훈련 코퍼스는 웹 콘텐츠, 문학, 코딩 언어, 수학 공식, 대화 데이터 등 다양한 소스로 구성되어 있으며, 이러한 소스가 PaLM 대비 향상된 성능에 기여한 것으로 알려져 있습니다.
100개 이상의 언어에 능통한 PaLM 2의 대화 능력은 기대를 뛰어넘을 것으로 예상됩니다. 이러한 고급 언어 지식은 모델에 더 뛰어난 문맥 이해력과 번역 능력을 불어넣어 줍니다.
GPT-4의 학습 데이터에 대해 확인된 바에 따르면 OpenAI는 공개적으로 사용 가능한 데이터와 라이선스를 취득한 데이터를 사용하여 모델을 학습시켰다고 밝혔습니다. GPT-4의 연구 페이지 에는 “이 데이터는 수학 문제에 대한 정답과 오답, 약한 추론과 강한 추론, 자기 모순적이고 일관된 진술, 매우 다양한 이념과 아이디어를 포함하는 웹 규모의 데이터 말뭉치”라고 명시되어 있습니다.
질문에 답하기 위해 GPT-4를 활용하면 여러 가지 가능한 답변이 나올 수 있으며, 그 중 일부는 당면한 질문과 관련이 없을 수도 있습니다. OpenAI는 사용자의 의도와 일치하는 답변을 제공하기 위해 강화 학습과 사람의 피드백을 통합하여 모델의 성능을 개선했습니다.
각 모델에 사용된 구체적인 학습 데이터 세트는 아직 알려지지 않았지만, 각각의 학습 목표가 뚜렷한 것은 분명합니다.실제 사용 시 두 시스템의 궁극적인 성능은 아직 불확실하며 추가적인 검토가 필요합니다.
PaLM 2 및 GPT-4 챗봇 및 서비스
두 언어 모델(LLM)에 액세스하려면 해당 챗봇, 즉 PaLM 2의 Bard와 GPT-4의 ChatGPT를 활용하면 됩니다. 단, GPT-4는 현재 유료 버전인 ChatGPT Plus를 통해서만 접근할 수 있으며, 무료 사용자는 GPT-3로 제한된다는 점에 유의해야 합니다. 반면, 바드는 전 세계 180개국에서 무료로 사용할 수 있습니다.
GPT-4를 무료로 사용할 수도 있지만, 비용을 지불하면 더 많은 유연성과 고급 기능을 제공하는 대체 옵션이 있습니다. 이러한 옵션 중 하나는 개발자가 왓슨 스튜디오에서 제공하는 사전 학습된 언어 이해 기능을 사용하여 사용자 지정 모델을 구축할 수 있는 API를 제공하는 IBM 왓슨 오픈 에디터를 들 수 있습니다. 또 다른 예로는 머신 러닝 모델 생성 및 배포를 위해 Amazon SageMaker를 비롯한 여러 머신 러닝 서비스를 제공하는 Amazon Web Services(AWS)가 있습니다. 또한 Microsoft의 Azure 머신 러닝은 머신 러닝 모델을 빌드, 학습 및 배포하기 위한 클라우드 기반 도구도 제공합니다.
최근 Google I/O 2023 행사에서는 PaLM 2와 제너레이티브 인공 지능을 구글 워크스페이스 에코시스템에 통합하겠다는 선언이 쏟아져 나왔습니다. 이러한 발전은 구글 문서도구, 스프레드시트, 슬라이드, 지메일 등 거대 기술 기업이 제공하는 다양한 서비스에 AI 기능을 도입하여 향상된 사용자 경험을 제공할 것으로 기대됩니다. 또한 PaLM 2는 이미 Android 및 YouTube를 포함한 25개 이상의 제품에 원활하게 통합되어 있다는 것이 Google의 검증을 받았습니다.
Microsoft는 Microsoft Office 애플리케이션 제품군 및 다양한 서비스에 인공 지능 기능을 통합했습니다. 현재 이 분야에서 우위를 점하기 위해 경쟁하는 라이벌 회사에서 비슷한 AI 기능을 제공하는 두 가지 경쟁 제품이 있습니다.
고급 언어 모델로서 GPT-4가 등장하면서 AI 기능을 서비스에 통합하고자 하는 다양한 기관에서 널리 채택하고 있습니다. 이전 모델과 달리 GPT-4는 Google이 Bard 모델을 처음 구현할 때 저지른 오류를 피하기 위해 신중을 기했기 때문에 타사 개발자, 스타트업 및 기타 이해관계자들이 선호하는 선택입니다. 관심이 있으시다면 Google의 GPT-4 애플리케이션 컬렉션을 열람하실 수 있습니다.
개발자가 Palm 2를 사용하거나 실험할 수 있는 가능성이 있지만, Google은 이와 관련하여 OpenAI의 진행 상황과 일치해야 합니다.또한 Palm 2는 오픈 소스 기술이기 때문에 유료 API 액세스로 제한되는 GPT-4에 비해 잠재적으로 더 광범위하게 채택될 수 있습니다.
PaLM 2가 GPT-4를 대체할 수 있나요?
PaLM 2는 아직 초기 단계에 있지만, GPT-4의 기능과 경쟁할 수 있을지는 아직 미지수입니다. 그럼에도 불구하고 구글의 야심찬 계획과 이를 홍보하기 위해 취한 적극적인 접근 방식을 고려할 때 PaLM 2가 GPT-4에 강력한 도전이 될 수 있다고 믿을 만한 근거가 있습니다.
한계에도 불구하고 GPT-4는 여전히 강력한 언어 모델이며 여러 벤치마크 테스트에서 Palm 2를 능가하는 것으로 밝혀졌습니다. 그러나 Palm 2의 장점은 여러 개의 작은 모델을 활용한다는 점에서 GPT-4보다 확실한 우위를 점할 수 있습니다. 또한 Gecko는 크기가 작아 인터넷에 연결되지 않은 모바일 디바이스에서도 배포가 가능하므로, Palm 2는 GPT-4를 사용하는 데 어려움을 겪을 수 있는 다양한 제품 및 디바이스에 적용할 수 있습니다.
인공지능 경쟁이 가열되고 있다
PaLM2의 공개로 인공지능 영역에서 GPT에 도전할 강력한 적수가 등장하면서 치열한 경쟁이 촉발되고 있습니다. 또한 구글은 제미니라는 또 다른 멀티모달 인공지능 모델을 개발 중인 것으로 알려졌는데, 이는 구글이 인공지능 기술 발전에 대한 추구를 포기하지 않고 있음을 시사합니다.