05. 비디오 생성 (Video Generation)

이 챕터에서 다루는 것

AI 비디오 생성은 텍스트, 이미지, 또는 기존 비디오를 입력으로 받아 새로운 비디오를 만들어내는 기술입니다. 이미지 생성이 한 장의 정지된 그림을 만드는 것이라면, 비디오 생성은 수십~수백 프레임의 연속된 이미지를 시간적 일관성을 유지하며 생성하는 것입니다.

이 챕터에서는 다음을 학습합니다:

AI 비디오 생성은 입력 데이터의 종류에 따라 여러 유형으로 나뉩니다.

영상 모델의 경우 가장 대표적인 wan2.2 모델을 기준으로 합니다.

텍스트 프롬프트만으로 비디오를 생성합니다. “A cat walking through a garden”처럼 장면을 묘사하면, AI가 움직이는 비디오를 만들어냅니다.

T2V 워크플로우

하나의 정지 이미지를 입력으로 받아, 그 이미지가 움직이는 비디오를 생성합니다. 사진 속 인물이 걸어가거나, 풍경에 바람이 부는 효과를 줄 수 있습니다.

I2V 워크플로우

시작 이미지와 끝 이미지, 두 장을 입력하면 그 사이를 자연스럽게 연결하는 비디오를 생성합니다.

FLF2V 워크플로우

T2V → I2V → V2V 순서로 제어 수준이 높아집니다. 텍스트만으로 부족하면 이미지 입력을, 더 정밀한 제어가 필요하면 비디오 입력을 활용하세요.
Wan 2.2는 다양한 비디오 생성 유형을 지원하는 모델입니다.
비디오 생성은 이미지보다 VRAM과 시간이 훨씬 많이 필요합니다. 처음에는 낮은 해상도와 적은 프레임 수로 시작하세요.