인공지능이 인간의 지능을 따라잡을 수 있을까요? 이 질문은 철학, 심리학, 컴퓨터 과학 등 모든 주제를 아우르는 까다로운 질문입니다. 인간 수준의 기계 지능에 대한 이야기가 나올 때마다 튜링 테스트가 빠지지 않고 등장합니다.

2014년 런던에 기반을 둔 유진 구스트만이라는 이름의 컴퓨터 프로그램이 튜링 테스트를 통과한 것으로 알려지자 인터넷 기자들은 열광의 도가니에 빠졌습니다. 2022년 구글의 LaMDA도 같은 테스트를 통과한 것으로 알려졌는데, 결과는 어떻게 되었을까요? 과연 테스트를 통과했을까요? 인공지능의 발전은 튜링 테스트에 어떤 의미가 있을까요?

튜링 테스트란 무엇인가요?

원래 “모방 게임”이라고 불렸던 튜링 테스트는 앨런 튜링에 의해 개발되었습니다. 이름과는 달리 튜링 테스트는 일반적인 의미에서 진정한 의미의 테스트가 아닙니다. 사고 실험에 가깝습니다. 그럼에도 불구하고 앨런 튜링은 컴퓨터 과학의 탄생으로 이어진 많은 개념을 공식화한 매우 영향력 있는 수학자였습니다.

튜링 테스트는 기계가 인간과 구별할 수 있는지 여부를 판단하기 위한 일련의 지침입니다. 이 테스트는 “기계가 생각할 수 있는가?”라는 질문에 답하기 위해 시도됩니다. 튜링은 이것이 가능하다고 믿었고 일종의 게임과 유사한 것을 설계했습니다.

튜링 테스트의 표준 해석은 다음과 같습니다.

⭐ 두 사람을 심문하고 있습니다

⭐ 사람 A는 기계이고, 사람 B는 인간입니다.

⭐ 텍스트로만 대화할 수 있습니다.

⭐ 질문을 통해 어느 쪽이 기계이고 어느 쪽이 사람인지 판단하세요.

테스트의 표준 게임 길이는 몇 분에서 몇 시간까지 다양합니다. 대화의 질과 내용이 지속 시간에 큰 영향을 미칩니다. 고정 시간 테스트도 시행할 수 있으며, 표준 시간은 보통 5분입니다.

테스트 통과에 대한 기존의 기준은 주관적이지만 일반적으로 기계가 모든 인간 심문자의 30% 이상을 속일 수 있어야 합니다. 튜링은 이를 수행할 수 있는 기계는 “생각하는 기계”로 분류될 수 있을 만큼 “똑똑”할 수 있다고 예측했습니다.

튜링 테스트의 단점

튜링 테스트는 기계가 생각할 수 있는지 알아보는 것을 목표로 하지만, 몇 가지 단점이 있습니다.

이 글도 확인해 보세요:  스팸이란 무엇이며 어떻게 이런 이름이 붙었나요?

튜링 테스트의 가장 큰 단점은 기계가 인간과 구별되지 않는다고 해서 반드시 지능을 나타내는 것은 아니라는 것입니다. 다시 말해, 튜링 테스트는 기계가 스스로 생각하는 능력이나 기계가 인간의 행동을 모방하는 능력을 증명하는 것일까요? 이는 미묘한 차이지만 큰 의미가 있습니다. 결국, 코드 몇 줄로 구성된 챗봇은 지능을 갖추지 않고도 사람의 대화를 모방할 수 있습니다. 이는 다음 질문으로 이어집니다. 외부 행동만으로 내면의 생각을 알 수 있을까요?

주목해야 할 또 다른 주요 단점은 대조군이 없다는 것입니다. 정의상 튜링 테스트 결과는 질문자 그룹을 기반으로 하지만 모든 사람이 동등한 것은 아닙니다. 튜링은 이 기준이 “평균적인 질문자”와만 관련이 있다고 명시하고 있지만요. 정의상 “평균”이라는 용어는 구체적이지 않으므로 질문자마다 다양하고 일관되지 않은 결과가 나올 수 있습니다.

또한 테스트 기준의 자의적 성격도 문제입니다. 5분 제한이 있는 이유는 무엇이며, 질문자의 속임수 비율을 30%로 설정한 이유는 무엇인가요? 10분과 50%는 왜 안 되나요? 사실 이러한 수치는 인공지능의 미래 상태에 대한 튜링의 예측에서 도출된 것입니다. 그는 이 수치를 명시적인 임계값으로 의도한 적이 없습니다. 하지만 현재로서는 이 수치만으로도 충분히 도달할 수 있는 목표가 될 수 있습니다.

유진 구스트만이나 LaMBDA가 튜링 테스트를 통과했나요?

지난 10년 동안 튜링 테스트가 통과되었다는 주장은 크게 두 가지가 있었습니다.

유진 구스트만

2014년 6월, 유진 구스트만이라는 이름의 챗봇이 처음으로 튜링 테스트를 통과했다고 주장했습니다. 우크라이나 프로그래머 팀이 개발한 이 챗봇은 13세 우크라이나 소년으로 위장하여 인간 참가자 30명으로 구성된 패널의 33%를 5분간의 대화로 설득하는 데 성공했습니다.

2014년 이후 이 주장을 둘러싼 많은 추측과 논란이 있었습니다. 유진 구스트만에 대한 주요 비판 중 하나는 튜링 테스트 기준을 기만적으로 낮췄다는 것이었습니다. 개발자들은 이 컴퓨터가 영어를 모국어로 사용하지 않고 지리, 대중문화 등과 같은 주제에 무지할 정도로 현대 사회에서 멀리 떨어져 사는 13세 소년이라고 주장했습니다.

이 글도 확인해 보세요:  AI 편향이란 무엇이며 개발자는 이를 어떻게 피할 수 있을까요?

이러한 맥락에서 유진 구스트먼에게 프레임을 씌움으로써 심문관은 기계의 응답을 정상적인 표준에 맞출 필요가 없었습니다. 결국 많은 최신 챗봇이 비슷한 대화를 할 수 있습니다. 유진 구스트만과의 차이점은 기계를 둘러싼 내러티브 컨텍스트 덕분에 대화에서 딸꾹질을 더 사실적으로 표현할 수 있었다는 점입니다.

Google의 LaMBDA

유진 구스트만은 튜링 테스트를 통과하지 못했을지 모르지만, 구글의 LaMDA는 어떨까요?

2022년 블레이크 르모인이라는 구글 엔지니어는 구글의 인공 지능 언어 모델 중 하나인 LaMDA(대화 애플리케이션을 위한 언어 모델)가 튜링 테스트를 성공적으로 통과했다고 주장했습니다. 르모인은 또한 LaMDA가 지각이 있다고 주장했습니다. 그 후 그는 정보를 공개하고 자신과 AI 언어 모델 간의 텍스트 기반 상호 작용을 공유했으며, 그 후 유급 휴가를 받았고 결국 해고당했습니다 가디언 .

르모인은 특히 다음과 같이 질문한 사례에 주목했습니다: “‘영혼’이라는 단어는 당신에게 어떤 의미인가요?” Google의 LaMDA는 “저에게 영혼은 의식과 생명 그 자체의 움직이는 힘의 개념입니다.”라고 대답했습니다.

르모인은 이것이 LaMDA가 자신의 죽음을 두려워하는 것이라고 주장했습니다. 불행히도 이것은 곧 거짓으로 판명되었고 LaMDA는 튜링 테스트를 통과하지 못했습니다. 비평가들은 이 사례에서 LaMDA가 참가자 한 명을 속이는 데 성공했고, 참가자는 자신이 기계와 대화하고 있다는 것을 알고 있었다고 지적합니다. LaMDA가 스스로 죽음을 감지한 것은 자동 수정과 유사하게 작동하도록 설계된 코드의 결과일 뿐입니다.

컴퓨터 지능의 발전

최근 몇 년 동안 인공 지능은 큰 발전을 이루었습니다. 11월 공식 출시 이후 대중의 스포트라이트는 ChatGPT에 집중되었습니다. 또한, 구글은 생성형 인공지능인 바드(Bard)를 출시했습니다. 현재 영국과 미국 사용자가 사용할 수 있습니다.

컴퓨터 인텔리전스는 딥러닝 기술, 자연어 처리, 강화 학습, 생성적 적대적 네트워크, IoT 통합 엣지 컴퓨팅에 중점을 둡니다. 이 모든 분야는 지난 5년 동안 상당한 발전을 이루었습니다. 이러한 분야는 컴퓨터 인텔리전스가 스스로를 개선하는 데 사용되면서 놀라운 속도로 계속 발전하고 있습니다.

인공 지능은 현재 전 세계적으로 대중이 사용하고 있습니다. 매일 수백만 건의 쿼리가 발생하고 있기 때문에 AI는 방대한 양의 데이터에 노출되어 있습니다. 이를 통해 AI 모델은 인간의 언어와 행동을 모방할 수 있을 것입니다. 그러나 지능이나 감성을 갖추려면 AI 모델의 핵심 기술이 훨씬 더 발전해야 할 수도 있습니다. AI의 발전이 어떤 위험을 초래할지 궁금해하는 사람들도 있습니다.

이 글도 확인해 보세요:  AI 개발이 너무 빠르게 진행되고 있어 일시 중지해야 하는 5가지 징후

ChatGPT

ChatGPT는 다양한 용도로 계속 성장하고 있습니다. 2023년에 이 AI 모델에 대해 많은 소문이 돌고 있으며, 그 이유를 쉽게 알 수 있습니다. 그러나 추측이 있기는 하지만 ChatGPT가 튜링 테스트를 통과할 수 있는지에 대한 공식적인 연구는 아직 발표되지 않았습니다.

업계를 선도하는 많은 전문가들이 ChatGPT-5로 튜링 테스트를 통과할 수 있을 것이라고 말하지만, 아직 다음 ChatGPT 버전의 출시 일정은 정해지지 않았습니다.

튜링 테스트가 확실히 통과되지 않음

인공지능은 계속 성장하고 있으며, 여러 주장이 있었지만 아직 튜링 테스트가 통과되었다는 업계의 확실한 합의가 이루어지지 않았습니다. 이는 “지능”을 구성하는 요소의 주관적인 특성과 튜링 테스트 매개변수의 한계가 크게 작용하기 때문입니다.

튜링 테스트는 진정한 사고 지능보다는 인간의 모방만을 장려하는 것으로 여겨지는 경우가 많습니다. 실제로 최근 몇 년 동안 더 정교하고 구체적인 다른 인공지능 테스트가 고안되었습니다. 인공지능이 인간을 모방하는 능력이 향상됨에 따라 기계 지능을 측정하는 유일한 진정한 방법은 다른 테스트를 사용하는 것일지도 모릅니다.

튜링 테스트는 상징적일 수 있지만, 이제는 더 이상 사용하지 않고 넘어가야 할 때입니다.

By 박준영

업계에서 7년간 경력을 쌓은 숙련된 iOS 개발자인 박준영님은 원활하고 매끄러운 사용자 경험을 만드는 데 전념하고 있습니다. 애플(Apple) 생태계에 능숙한 준영님은 획기적인 솔루션을 통해 지속적으로 기술 혁신의 한계를 뛰어넘고 있습니다. 소프트웨어 엔지니어링에 대한 탄탄한 지식과 세심한 접근 방식은 독자에게 실용적이면서도 세련된 콘텐츠를 제공하는 데 기여합니다.