콘텐츠로 이동

05. 비디오 생성 (Video Generation)

AI 비디오 생성은 텍스트, 이미지, 또는 기존 비디오를 입력으로 받아 새로운 비디오를 만들어내는 기술입니다. 이미지 생성이 한 장의 정지된 그림을 만드는 것이라면, 비디오 생성은 수십~수백 프레임의 연속된 이미지를 시간적 일관성을 유지하며 생성하는 것입니다.

이 챕터에서는 다음을 학습합니다:

  • AI 비디오 생성의 다섯 가지 유형 (T2V, I2V, FLF2V, V2V)
  • 비디오 파이프라인의 기본 구조와 이미지 파이프라인과의 차이점
  • 용도와 환경에 맞는 모델 선택 가이드

AI 비디오 생성은 입력 데이터의 종류에 따라 여러 유형으로 나뉩니다.

영상 모델의 경우 가장 대표적인 wan2.2 모델을 기준으로 합니다.

텍스트 프롬프트만으로 비디오를 생성합니다. “A cat walking through a garden”처럼 장면을 묘사하면, AI가 움직이는 비디오를 만들어냅니다.

T2V 워크플로우

  • 가장 자유도가 높지만, 원하는 결과를 정확히 통제하기 어려울 수 있음
  • 대부분의 비디오 모델이 T2V를 기본으로 지원

하나의 정지 이미지를 입력으로 받아, 그 이미지가 움직이는 비디오를 생성합니다. 사진 속 인물이 걸어가거나, 풍경에 바람이 부는 효과를 줄 수 있습니다.

I2V 워크플로우

  • 시작 프레임을 정확히 유지할 수 있어 일관성이 높음

시작 이미지와 끝 이미지, 두 장을 입력하면 그 사이를 자연스럽게 연결하는 비디오를 생성합니다.

FLF2V 워크플로우

  • 시작과 끝을 정확히 제어할 수 있어 스토리보드 기반 작업에 적합

목적추천 모델이유
처음 시작할 때Wan 2.1 T2V (1.3B)가볍고 빠르며, 기본 파이프라인 이해에 적합
범용 고품질Wan 2.2 14B (Turbo)4스텝 터보로 빠르면서도 14B 모델의 품질
이미지→비디오Wan 2.2 I2V안정적인 I2V 결과물
비디오 제어 (V2V)Wan 2.2 Fun ControlCanny 기반 동작 제어, 스타일 변환
시작/끝 프레임 제어Wan 2.2 FLF2V시작과 끝을 정확히 지정
VRAM추천 모델비고
8~12GBWan 2.1 T2V (1.3B)경량 모델, 낮은 해상도/프레임 수
12~16GBWan 2.2 5B, Wan 2.1 14B중간 규모 모델, fp8 양자화 활용
16~24GBWan 2.2 14B (Turbo)대부분의 비디오 워크플로우 실행 가능
24GB+모든 모델고해상도 + 많은 프레임 수로 생성 가능

  • T2V → I2V → V2V 순서로 제어 수준이 높아집니다. 텍스트만으로 부족하면 이미지 입력을, 더 정밀한 제어가 필요하면 비디오 입력을 활용하세요.
  • Wan 2.2는 다양한 비디오 생성 유형을 지원하는 모델입니다.
  • 비디오 생성은 이미지보다 VRAM시간이 훨씬 많이 필요합니다. 처음에는 낮은 해상도와 적은 프레임 수로 시작하세요.