OpenAI는 현재 고급 AI 챗봇으로 개발 중인 ChatGPT가 곧 인공적으로 생성된 것으로 보이는 합성 발성을 사용하여 사용자와 소통할 수 있는 기능을 통해 대화형 생성 AI 경험을 제공할 것이라고 발표했습니다.

ChatGPT의 최신 업데이트에는 사용자가 모바일 애플리케이션을 통해 이미지를 업로드하거나 캡처할 수 있는 혁신적인 기능이 포함되어 있으며, 이를 통해 AI 어시스턴트와 심층적으로 논의할 수 있습니다. 이 기능은 구글 렌즈와 같은 인기 있는 이미지 인식 도구를 연상시키는데, 고급 신경망 기술을 활용하여 이미지 내의 관련 세부 사항을 정확하게 감지합니다.

OpenAI, ChatGPT에 음성 제공

2023년 9월 25일, ChatGPT 개발사 OpenAI는 세계 최고의 생성 AI 챗봇에 음성을 제공한다고 발표했습니다. ChatGPT 사용자는 챗봇에게 직접 말을 걸고 응답을 요청할 수 있으며, 이를 통해 처음으로 음성으로 직접 대화할 수 있게 됩니다.

OpenAI의 데모에서 한 여성이 ChatGPT에게 독창적인 잠자리 이야기를 만들어 달라고 요청하면, 컴퓨터가 생성한 여성 목소리를 활용하여 이에 응답합니다.

유선 에 따르면 새로운 텍스트 음성 변환 모델은 자체적으로 개발되었습니다. 이 모델은 텍스트와 몇 초 분량의 샘플 음성(OpenAI Whisper 모델 사용)으로 “사람과 같은” 오디오를 생성하고 다양한 톤과 스타일로 말할 수 있습니다. 다양한 음성 샘플은 OpenAI의 블로그 에서 확인할 수 있습니다.

여러 조직에서 다양한 애플리케이션에 최첨단 텍스트 음성 변환 모델을 활용하여 OpenAI의 최신 음성 기술 발전을 활용하기 시작했습니다. 대표적인 예로 Spotify와 OpenAI의 협업을 들 수 있는데, 후자의 획기적인 텍스트 음성 변환 기능이 ChatGPT의 강력한 언어 번역 능력과 함께 사용되어 다양한 언어 경계를 넘어 팟캐스트 콘텐츠의 다국어 번역을 용이하게 하고 있습니다.

Android 또는 iOS 플랫폼에서 실행되는 인증된 모바일 장치를 통해 당사의 소중한 플러스 및 엔터프라이즈 요금제 가입자에게만 독점적으로 제공되는 ChatGPT의 고급 텍스트 음성 변환 기술을 소개합니다. 이 혁신적인 기능은 2023년 9월 25일부터 단계적으로 출시될 예정입니다. 초기에는 지원 언어가 영어로 제한되지만, 빠른 속도로 음성 및 언어가 확대될 것으로 예상됩니다.

이 글도 확인해 보세요:  AI 편향이란 무엇이며 개발자는 이를 어떻게 피할 수 있을까요?

이미지와 사진을 인식하고 분석할 수 있는 ChatGPT

혁신에 대한 헌신을 증명하듯, OpenAI는 최근 이미지 처리 및 대화 기능이라는 흥미로운 새 기능을 ChatGPT에 도입했습니다.이 획기적인 기능은 GPT-4 업데이트에 요약된 개발 마일스톤에서 잠깐 소개되었지만, ChatGPT 코드 인터프리터 외에는 크게 주목받지 못했습니다.

이제 사용자는 ChatGPT의 고급 기능을 활용하여 Google 렌즈에서 제공하는 기능을 연상시키는 기능을 활용할 수 있습니다. 플랫폼을 통해 이미지를 업로드하거나 ChatGPT 애플리케이션 내에서 기기의 카메라를 통해 사진을 캡처함으로써 사용자는 시각적 콘텐츠에 대한 통찰력 있는 세부 정보를 얻는 동시에 필요한 경우 추가 컨텍스트를 제공할 수 있습니다.

“Google 렌즈”라는 용어는 사용자가 이미지에 대해 서로 대화하여 추가 세부 정보와 컨텍스트를 얻을 수 있으므로 다양한 상황에서 매우 유용하게 사용될 수 있다는 점에서 그 기능을 제대로 표현하지 못할 수도 있습니다. 그럼에도 불구하고 OpenAI는 개인 정보 보호 및 정확성과 관련된 우려로 인해 개인에 대한 평가 및 주장에 대한 ChatGPT의 능력을 제한하고 있으므로 이용 약관을 검토하는 것이 중요합니다. 그럼에도 불구하고 가까운 시일 내에 OpenAI 기반의 “누구세요” 애플리케이션을 기대할 수 있을까요? 그렇지 않기를 바랍니다!

OpenAI는 향후 2주 내에 이미지 인식 기능을 출시할 예정이라고 발표했으며, 이 기능은 ChatGPT 애플리케이션에만 국한되지 않고 여러 플랫폼에서 액세스할 수 있습니다.

개인정보 보호, 보안 및 기타 문제

음성 기반 ChatGPT 시스템을 활용할 수 있다는 전망은 설레는 감정을 불러일으킬 수 있지만, 이러한 기술에 수반되는 중대한 파급 효과를 인식하는 것이 중요합니다. 특히, 제한된 오디오 샘플을 사용하여 독특한 음성을 생성할 수 있다는 점은 개인정보 보호 및 보안과 관련하여 상당한 우려를 불러일으킵니다. 또한, 생성형 인공 지능 시스템과 관련된 내재적 취약성을 고려할 때 악의적인 개인이 이 기능을 악용할 위험이 상당히 높습니다. 유감스럽게도 정부나 지적 감독을 통해 이러한 기술의 확산을 줄이려는 노력은 한 번 시작된 혁신의 궤적을 쉽게 억제할 수 없기 때문에 무용지물로 보입니다.

이 글도 확인해 보세요:  QLED, LED와 OLED: 차이점은 무엇인가요?

OpenAI가 당면한 과제를 인정하고 있음에도 불구하고, 그들의 담화는 제기된 우려를 언급하고는 있지만 문제의 문제를 회피하는 것으로 보입니다:

우리 시스템은 인상적인 능력을 가지고 있지만, 악의적인 개인이 저명한 인물로 가장하거나 기만적인 행위를 할 가능성을 포함하여 새로운 위험을 초래할 수 있습니다. 이러한 위험을 완화하기 위해 저희는 음성 대화 애플리케이션을 위해 특별히 기술을 설계했습니다.

이것은 시작에 불과하다는 점을 고려할 때, 특히 사기 행위 및 이와 유사한 우려를 제기하는 부정적 헤드라인의 뉴스 보도가 등장하면서 ChatGPT의 새로운 목소리에 대한 저항을 예상하는 것은 놀라운 일이 아닐 것입니다.

ChatGPT를 AI 앱으로 만드는 OpenAI

OpenAI가 사용자 중심 속성을 지속적으로 향상시킴으로써 ChatGPT는 생성형 인공지능 애플리케이션을 위한 탁월한 선택으로 떠올랐습니다. 생성 AI가 인기를 끌기 시작한 초기 단계에서 이 분야의 선구자 중 하나였던 ChatGPT는 계속해서 그 명성을 유지하고 있으며, 구글 바드나 앤트로픽의 클로드와 같은 경쟁 대안이 시장에 나와 있음에도 불구하고 많은 사용자들이 선호하는 옵션으로 남아 있습니다.

OpenAI가 새로운 기능을 추가하여 ChatGPT의 사용성을 지속적으로 향상시키는 한, 사용자들의 참여는 계속 유지될 것이며, 시스템은 다양한 모달리티를 지원하는 다목적 인공지능 플랫폼이라는 목표에 한 걸음 더 다가갈 것입니다.

By 김민수

안드로이드, 서버 개발을 시작으로 여러 분야를 넘나들고 있는 풀스택(Full-stack) 개발자입니다. 오픈소스 기술과 혁신에 큰 관심을 가지고 있고, 보다 많은 사람이 기술을 통해 꿈꾸던 일을 실현하도록 돕기를 희망하고 있습니다.