미 메타(Meta), 문장이나 사진으로 ‘동영상’ 제작 새 AI 발표

- 새 생성형 AI "무비 젠(Movie Gen)'

메-타(Meta)의 새로운 생성형 인공지능 '무비 젠(Movie Gen)/ 사진=메타 홈페이지

미국의 IT 대기업 메타(META)는 입력한 문장과 사진에서 동영상을 만드는 새로운 생성형 AI를 발표했다. 이미 비슷한 개발을 추진해온 ‘오픈 AI’와 ‘구글’에 대항할 수 있을 것으로 보이며 경쟁이 가속화되고 있다.

메타는 4일(현지시간) 입력한 문장이나 사진 등의 내용에 근거해, 최대 16초의 동영상을 생성할 수 있는 새로운 생성 인공지능(AI) “무비 젠(Movie Gen)”을 발표했다.

텍스트 프롬프트(text prompt)가 주어지면 텍스트-이미지(text-to-image) 및 텍스트-비디오(text-to-video)에 최적화된 조인트 모델을 활용하여 고품질 및 고화질 이미지와 비디오를 만들 수 있다.

이 30B 매개변수 변환기 모델은 초당 16프레임의 속도로 최대 16초의 비디오를 생성할 수 있다. 이러한 모델은 객체 동작, 주체-객체 상호 작용(subject-object interactions) 및 카메라 동작에 대해 추론할 수 있으며, 다양한 개념에 대한 그럴듯한 동작을 학습할 수 있으므로 해당 범주에서 최첨단 모델이라고 회사측은 설명했다.

공식 홈페이지에서는 AI로 생성했다고 하는 동영상이 여러 개 소개되고 있다.

얼굴 사진과 함께 “핑크색 재킷을 입은 DJ 여성이 치타 옆에서 레코드를 돌린다"라고 입력하면 지시대로 사진 인물이 리듬을 취하는 고화질의 동영상이 만들어진다.

"핑크색 재킷을 입은 DJ 여성이 치타 옆에서 레코드를 돌린다" 입력해서 나온 영상 / 사진=메타 홈페이지 갈무리

또, 문장의 지시로, 기존의 동영상에 효과음을 더하거나 비치고 있는 물건을 옮겨놓는 것도 가능하고, 샘플의 동영상에서는, 하늘을 향해 날아간 랜턴이 비누 거품으로 변환되고 있다.

메타에 따르면, 이 생성 AI는 아직 개발 단계에 있어, 악용을 막기 위한 안전 대책 등을 베푼 다음 내년 공개될 전망이다.

메타 측은 앞으로 모델을 개선하고 잠재적인 향후 공개를 향해 나아가면서, 영화 제작자와 창작자들과 긴밀히 협력하여 그들의 피드백을 통합할 것이라면서, 협력적인 접근 방식을 취함으로써, 사람들이 꿈에도 생각지 못했던 새로운 방식으로 자신의 고유한 창의성을 향상시키는 데 도움이 되는 도구를 만들겠다고 밝혔다.

한편, 이미 같은 개발을 진행해 온 ‘오픈 AI’나 ‘구글’에 대항할 만한 추세가 있는 것으로 보이며, 동영상을 생성하는 AI를 둘러싼 경쟁이 가속화되고 있다.