트위터와 레딧의 ChatGPT 서브 레딧과 같은 소셜 미디어 플랫폼에서 특히 최근에 상당한 관심을 끌고 있는 것으로 보이는 반복적인 질문이 있었습니다. 이 질문은 ChatGPT의 지적 능력에 관한 것으로, 이러한 디지털 포럼을 자주 이용하는 많은 사람들이 상당한 관심을 갖고 있는 것으로 보입니다.
전 세계적으로 인정받는 생성 AI 챗봇의 성능 저하가 단순히 수많은 사용자들의 집단적 상상력의 산물일까요, 아니면 시간이 지남에 따라 ChatGPT의 능력이 실제로 저하되고 있음을 시사하는 증거가 있을까요?
ChatGPT가 점점 더 나빠지고 있나요?
ChatGPT가 업데이트를 거듭할 때마다 지능이 떨어지나요? OpenAI는 최종 사용자의 의견, 쿼리 및 정보를 활용하여 개선의 궤적을 결정하기 위해 답변, 보안 및 기타 기능을 개선하기 위해 정기적으로 ChatGPT에 대한 개정판을 발행합니다.
ChatGPT의 성능은 사용자층으로부터 엇갈린 평가를 받았습니다. 처음에는 다양한 문제에 대한 포괄적인 솔루션으로 인식되었지만, 많은 사람들이 출력 및 추론 기능에 어려움을 겪었다고 보고했습니다. 특히, AI 시스템이 보여준 코딩 및 수학적 숙련도가 부족하다는 보고가 있었습니다. 또한 일부 사용자들은 ChatGPT가 창의적인 작업에는 적합하지 않다고 지적했습니다.
대다수의 ChatGPT 사용자가 응답의 진화를 평가하는 일반적인 방법은 이전 프롬프트(가급적이면 ChatGPT 초기 단계에서 활용된 프롬프트)를 다시 발행하고 그 결과물을 초기 배포 시와 비교하는 것입니다.
프로그래밍 및 수학과 같이 정확한 결과를 요구하는 응답의 비교는 일반적으로 용이하게 이루어집니다.
스탠포드 연구, ChatGPT 중단 제안
스탠포드 대학과 UC 버클리의 공동 연구 그룹은 ChatGPT가 변화하고 있다는 느낌이 옳을 수 있다고 생각합니다. Lingjiao Chen, Matei Zaharia, James Zou의 논문 ChatGPT의 동작은 시간이 지남에 따라 어떻게 변화하고 있나요? [PDF]는 ChatGPT의 변화하는 기능에 대한 최초의 심층 연구 중 하나입니다.
보고서 요약에 따르면
GPT-3.5와 GPT-4의 일관되지 않은 성능과 변경 가능한 동작은 시간이 지남에 따라 상당히 변동하는 것으로 관찰되었습니다. 예를 들어, 2023년 3월에 GPT-4는 97.6%의 정확도로 소수를 탐지하는 데 탁월한 능력을 보였지만, 2023년 6월에는 정확도가 2.4%에 불과하여 소수를 탐지하는 능력이 크게 떨어졌습니다.또한, GPT-3.5는 3월에 비해 6월에 형식화된 코드를 생성하는 능력이 저하된 반면, 두 기간 동안 소수를 식별하는 능력은 괄목할 만한 향상을 보였습니다. 또한 GPT-4는 후기 기간 동안 민감한 쿼리를 처리하는 데 주저하는 모습을 보였습니다.
2023년 초에 풀 수 있었던 수학 문제가 제시되었을 때, 그해 말 ChatGPT의 응답이 현저하게 부정확한 것으로 나타났습니다. 또한 이러한 답변의 정확성에 대해 ChatGPT가 제공한 설명이 명확하지 않아 혼란을 가중시켰습니다. 인공지능의 오답 사례가 전례가 없는 것은 아니지만, 아래 그래프에 표시된 데이터는 인공지능의 전반적인 인지 능력이 현저히 저하되었음을 시사합니다.
이미지 출처: 스탠포드/버클리 이미지 출처: 스탠포드/버클리
그래프에 제시된 데이터에 따르면, 첨부된 보고서에서 알 수 있듯이 ChatGPT의 응답 특성에서 차이가 발생하는 경향이 있는 것으로 보입니다.
조사 기간 동안 GPT-4의 정확도가 3월 97.6%에서 6월 2.4%로 떨어지는 등 현저한 성능 저하가 있었습니다. 반대로 GPT-3.5의 정확도는 7.4%에서 86.8%로 크게 향상되었습니다. 또한 GPT-4의 응답 길이도 눈에 띄게 줄어 3월 평균 821.2자에서 6월에는 3.8자로 줄었습니다. 반면, GPT-3.5의 응답 길이는 3월 평균 387.2자에서 6월 543.8자로 약 40% 증가했습니다. 또한
6월에 ChatGPT의 확장 언어 모델 프레임워크에 대한 쿼리 제시를 통해 생각의 기차가 예상대로 작동하지 않는 것으로 확인되었습니다. 이러한 현상은 일반적으로 대화 드리프트라고 불리며 언어 모델과 관련이 있는 경우가 많지만, ChatGPT에서 도출된 응답의 상당한 불일치는 근본적인 성능 문제와 시스템에 대한 수정이 있었음을 시사합니다.
ChatGPT가 더 나빠지고 있나요? OpenAI는 아니라고 말합니다
ChatGPT를 자주 사용하는 사람뿐만 아니라 일상적으로 사용하는 사람들도 전반적인 성능에 차이를 보인다는 점에 주목할 필요가 있습니다.
OpenAI의 제품 담당 부사장인 피터 웰린더는 연구 논문에서 제안하는 것과는 다른 의견을 가지고 있는 것 같습니다.
또한 Welinder는 ChatGPT와 관련된 OpenAI의 수많은 릴리스와 2023년에 걸쳐 조직이 배포한 일관된 업데이트 흐름에 주목했습니다.
그럼에도 불구하고 그의 트윗에 수많은 답글이 달렸으며, ChatGPT의 답변이 기대에 미치지 못한 다양한 사례에 대해 언급했습니다. 많은 사람들이 예상 결과와 실제 결과 사이의 차이를 강조하기 위해 특정 프롬프트와 해당 응답에 세심하게 레이블을 지정하는 작업을 직접 수행했습니다.
OpenAI가 ChatGPT를 원래 상태로 복원할 수 있나요?
ChatGPT의 기원에 대한 기억은 시간의 흐름에 따라 모호해지고, 2022년 11월의 사건은 이제 모호해졌으며, 인공지능의 영역은 빠른 속도로 진화하고 있습니다.
앞서 언급한 스탠포드/버클리에서 실시한 조사는 여러 개인에 의해 ChatGPT 활용과 관련된 어려움과 불만을 구체화한 것으로 인식되고 있습니다. 한편, 안전성과 포용성을 강화하기 위해 ChatGPT에 적용된 수정 사항으로 인해 추론 능력이 저하되어 다양한 업무에 사용할 수 없게 되었다는 주장도 있습니다.
ChatGPT가 겪은 변화와 관련하여 불확실성은 거의 없는 것으로 보이지만, 이전의 우수성을 되찾을 가능성은 여전히 열려 있는 질문입니다.