GPT-4V의 등장

GPT-4 API general availability and deprecation of older models in the Completions API

GPT-3.5 Turbo, DALL·E and Whisper APIs are also generally available, and we are releasing a deprecation plan for older models of the Completions API, which will retire at the beginning of 2024.

openai.com

오픈AI가 GPT-4 API를 일반 사용자도 쓸 수 있다고 발표했다. GPT-4 API는 지금까지 대기목록에 등록해 초대 메일을 받은 사람만 쓸 수 있는 상태였다.

GPT-4 API 일반 개방은 챗GPT 유료 버전 등에서 이용할 수 있는 언어 모델인 GPT-4를 다양한 앱에 호출해 쓸 수 있게 된다는 얘기다. 직접적으로 관련되는 건 앱 개발자지만 이들이 만든 GPT-4를 통합한 앱이 생활을 편리하게 해주는 형태로 챗GPT는 더 많은 이들에게 큰 영향을 끼치게 될 것이다.

많은 AI전문가들이 챗GPT의 다음으로 주목했던 기술이다. 하지만 이미지와 음성을 인식하고 출력하는 기술은 텍스트를 대상으로 하는 것과는 비교가 안 되게 어려움이 클 것이라는 예상이 많았다. LMM의 시대가 오기까지는 제법 시간이 걸릴 것이라는 전망이 많았다.

그런데 오픈AI가 다시 한 번 그 예상을 깼다. 오픈AI가 지난 9월 25일 공개한 ‘GPT-4V(ision)’는 AI 전문가들을 깜짝 놀라게 했다. GPT-4V는 이용자가 이미지를 올리고 이미지에 대한 질문을 할 수 있는 LMM으로, 사실상 전 세계에서 처음으로 대중화된 LMM 서비스다. 오픈AI는 이미 작년 말 GPT-4V를 위한 학습을 마치고, 올해에는 알파 그룹의 사용자에게 접근 권한을 부여한 뒤 테스트를 진행해 GPT-4V의 신뢰도를 높였다. 공개 직전인 9월 초에는 베타테스터 규모를 1만6000명까지 늘리기도 했다.

이렇게 출시된 GPT-4V는 챗GPT와는 또다른 충격을 주고 있다. 많은 사람들이 GPT-4V가 어떤 이미지까지 인식할 수 있는지 실험에 나서고 있는데, 챗GPT가 처음 나왔을 때 챗GPT에 질문을 던지는 게 일종의 ‘밈’처럼 이뤄진 것과 같은 분위기다.

지난 9월 29일에는 마이크로소프트의 연구자들이 GPT-4V를 이용해 다양한 실험을 진행한 논문이 공개되기도 했다. 단순한 이미지 해석에서부터 스도쿠 같은 게임을 이용한 추리, 인물의 표정을 통해 기분을 유추하는 것 등 다양한 실험이 망라돼 있었다.

특히 인상깊은 건 엑스레이 이미지를 보고 골절 부위를 지목한다거나 영어가 아닌 다른 국가의 언어가 들어간 이미지까지 제대로 해석해서 설명을 내놓는다는 점이었다. 김밥을 만드는 순서를 정확하게 나열하거나 손글씨로 제시된 이미지도 문제 없이 이해하는 모습이었다.

이번 GPT-4 API 개방은 유효한 지불 이력이 있는 개발자부터 이뤄져 완전 일반 공개가 되는 건 7월말이 될 것이라고 한다. 그 뿐 아니라 GPT-3.5 터보와 달리, 위스퍼 API도 일반 이용 가능하게 된다. 오래된 버전 API는 2024년 1월 4일부터 이용할 수 없게 될 예정으로 이들 API를 이용한 앱에선 수정이 필요한 경우가 발생할 것으로 보인다.