산업 IT

언어의 맥락 이해한 챗GPT…'사람을 탄 자전거'도 그린다

◆오픈AI '챗GPT 이미지' 출시

틀 벗어난 창의적 요구 소화

과학 인포그래픽도 쉽게 생성


오픈AI가 맥락과 대상에 대한 이해도를 한 층 높인 새 이미지 생성 인공지능(AI) 모델을 내놨다. ‘그림’만 학습한 기존 이미지 모델에 GPT-4o 언어 모델이 결합하며 목적에 부합하는 이미지를 쉽게 생성할 수 있게 될 전망이다.

챗GPT 이미지가 생성한 뉴턴의 프리즘 실험 인포그래픽. 실험에 대해 이해하고 명확한 설명과 폰트로 인포그래픽을 만들어낸다. 사진제공=오픈AI챗GPT 이미지가 생성한 뉴턴의 프리즘 실험 인포그래픽. 실험에 대해 이해하고 명확한 설명과 폰트로 인포그래픽을 만들어낸다. 사진제공=오픈AI




25일(현지 시간) 오픈AI는 새 이미지 AI ‘챗GPT 이미지(챗GPT 4o 이미지 생성)’를 출시했다. 이는 기존 DALL·E(달이)를 대체해 챗GPT의 기본 이미지 생성 모델이 된다. 오픈AI 관계자는 “GPT-4o의 언어 지식과 이미지 지능이 결합된 모델”이라며 “기존 모델이 참신했다면 이 모델은 유용하다”고 강조했다.



챗GPT 이미지는 그림만 학습한 DALL·E 등 기존 이미지 생성 모델과 근본부터 다르다. 그릴 대상에 대한 이해를 지녀 학습하지 않은 '창의적인' 요구도 소화한다. 일례로 DALL·E는 숫자와 문자를 삐뚤빼뚤 적는다. 숫자와 문자도 ‘그림’으로 해석해 마치 어린아이가 따라그리듯 생성해내는 것이다.

관련기사



또 ‘자전거를 탄 사람’은 잘 그려내지만 ‘사람을 탄 자전거’는 그리기 힘들어 한다. 사전 학습된 이미지에 특이한 그림이 드문 탓이다. 기존 AI 이미지 생성 모델이 사람 손을 잘 그려내지 못하는 이유도 여기에 있다. AI는 신체 구조 전반에 대한 이해가 없이 팔 끝에는 손가락과 같은 형상이 달려 있어야 한다는 점만 안다.

챗GPT 이미지는 글자를 모사하지 않고 제대로 적어낼 수 있다. 사진제공=오픈AI챗GPT 이미지는 글자를 모사하지 않고 제대로 적어낼 수 있다. 사진제공=오픈AI


챗GPT 이미지는 그림 생성에 언어 모델을 결합해 문제를 해결했다. 언어 모델이 요구사항을 이해한 후 그림을 만들어내 보다 정확한 결과물을 만들어 낸다. ‘삼각형 바퀴의 자전거’도 쉽게 그려내고, ‘향유 고래를 그려달라’는 요구에 종을 파악한 후 특징을 살린 이미지를 출력한다. 문자와 숫자에 대한 이해도 한층 개선됐다. 과학 실험을 설명한 인포그래픽도 원리를 이해해 쉽게 생성해낼 수 있다. 오픈AI 관계자는 “높은 강도의 스트레스 테스트에도 사람 손가락을 제대로 그려냈다”고 했다.

새 모델은 물 위를 달리는 말 같은 기존에 학습하지 않은 이미지도 쉽게 생성해낸다. 사진제공=오픈AI새 모델은 물 위를 달리는 말 같은 기존에 학습하지 않은 이미지도 쉽게 생성해낸다. 사진제공=오픈AI


챗GPT 이미지는 무료 사용자들에게도 제공된다. 영상 AI ‘소라’에도 새 모델의 언어 이해가 적용된다. 서비스 경쟁력 개선의 일환이다. 현재 구글 제미나이는 ‘이마젠’ 이미지 생성 모델을 제공 중이다. 중국 딥시크도 ‘야누스’라는 이름의 이미지 생성 모델을 출시한 바 있다.


실리콘밸리=윤민혁 특파원
<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>




더보기
더보기





top버튼
팝업창 닫기
글자크기 설정
팝업창 닫기
공유하기