오픈AI "글자 입력하면 슬롯 머신 생성" vs 구글 "1시간 동슬롯 머신 한 번에 분석"
슬롯 머신
수정
멀티모달 슬롯 머신 '샅바 싸움'‘여러 마리의 거대한 털북숭이 매머드가 눈 덮인 초원을 밟고 다가온다.’
이 같은 내용을 텍스트로 입력하자 매머드가 하얀 눈밭을 성큼성큼 걸어오는 슬롯 머신이 등장했다. ‘두 척의 해적선이 커피 한 잔 안에서 항해하면서 서로 싸우는 모습을 사실적으로 클로즈업한 비디오’라고 입력하자 거친 파도를 일으키는 커피잔 속에서 대결을 벌이는 검은 해적선 슬롯 머신이 만들어졌다.이는 챗GPT 개발사인 오픈AI가 문자 명령어를 슬롯 머신으로 변환해주는 새로운 인공지능 AI 모델 ‘소라’에서 만든 것들이다. 오픈AI는 15일(현지시간) 웹사이트를 통해 소라의 슬롯 머신물을 소개하며 “실제 서비스에 앞서 피드백을 얻기 위해 다수의 시각 예술가, 디자이너, 영화제작자에게도 접근권을 부여했다”고 밝혔다.
AI 기술이 빠른 속도로 고도화하면서 빅테크 업체 간의 멀티모달 AI 경쟁이 본격화하고 있다. 멀티모달은 문서 이외에 이미지와 슬롯 머신, 음성 등 다양한 데이터를 분석하고 추론할 수 있는 기술을 말한다. 생성AI 문서와 이미지에 이어 슬롯 머신을 생성하는 분야에서도 기술 주도권 경쟁이 벌어지고 있다.
오픈AI에 따르면 소라는 최대 1분 길이의 슬롯 머신을 제작할 수 있다. 기존 비디오 생성 AI가 4초 단위의 슬롯 머신만이 제작했던 것에 비해 생성 능력이 많이 증가했다. 오픈AI 측은 “소라는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 묘사를 통해 복잡한 장면을 생성할 수 있다”며 “소라가 일반인공지능(AGI) 달성을 위한 중요한 이정표가 될 것”이라고 강조했다. 다만, 오픈AI는 소라가 공간적 세부사항을 혼동할 수 있고, 특정 카메라 궤적을 따라가는 데 어려움을 겪을 수 있다고 덧붙였다. 오픈AI는 슬롯 머신이 소라에 의해 생성됐는지 식별할 수 있는 도구도 개발 중이다. 가짜 슬롯 머신 유포 등으로 인한 부작용 등을 방지하기 위해서다.같은 날 구글도 차세대 AI 모델 ‘제미나이 1.0 프로’의 업데이트 버전인 ‘제미나이 1.5 프로’ 공개하며 맞불을 놨다. 제미나이는 학습 규모에 따라 울트라·프로·나노로 나뉜다. 이날 공개한 제미나이 1.5 프로는 텍스트·이미지·음성·슬롯 머신을 생성하는 중급 멀티모달 모델이다. 기존 모델을 개선하면서 구글의 최신 AI 모델인 ‘제미나이 1.0 울트라’와 비슷한 수준으로 성능을 높였다고 구글 측은 설명했다. 구글에 따르면 제미나이 1.5 프로는 최대 100만개의 토큰 처리 능력을 갖췄다. 이는 기존 1.0 프로(3만200개)의 토큰 처리 규모를 30배 이상 확대한 것이다.
구글은 “제미나이 1.5 프로는 1시간 분량의 동슬롯 머신과 11시간 분량의 음성 파일, 3만 줄 이상의 코드, 70만 단어 이상의 텍스트에 해당하는 방대한 정보를 한 번에 처리할 수 있다”고 설명했다. 실제로 데모 슬롯 머신에서 구글은 미국 배우 버스터 키튼의 44분 분량의 영화 줄거리를 요약하는 모습을 보여줬다.
이들 외에 메타도 작년에 이미지 생성 모델인 ‘에뮤(Emu)’의 기능을 개선해 텍스트로 슬롯 머신을 편집하고 생성할 수 있는 기능을 추가했다. 메타는 올해 엔비디아의 고성능 그래픽처리장치(GPU) 등을 수십만개를 구입해 자사 컴퓨팅 파워를 강화해 지금보다 더 강력한 AI 모델을 개발할 방침이다.
실리콘밸리=최진석 특파원 iskra@hankyung.com