05. 비디오 생성 (Video Generation)
이 챕터에서 다루는 것
섹션 제목: “이 챕터에서 다루는 것”AI 비디오 생성은 텍스트, 이미지, 또는 기존 비디오를 입력으로 받아 새로운 비디오를 만들어내는 기술입니다. 이미지 생성이 한 장의 정지된 그림을 만드는 것이라면, 비디오 생성은 수십~수백 프레임의 연속된 이미지를 시간적 일관성을 유지하며 생성하는 것입니다.
이 챕터에서는 다음을 학습합니다:
- AI 비디오 생성의 다섯 가지 유형 (T2V, I2V, FLF2V, V2V)
- 비디오 파이프라인의 기본 구조와 이미지 파이프라인과의 차이점
- 용도와 환경에 맞는 모델 선택 가이드
비디오 생성 유형
섹션 제목: “비디오 생성 유형”AI 비디오 생성은 입력 데이터의 종류에 따라 여러 유형으로 나뉩니다.
영상 모델의 경우 가장 대표적인 wan2.2 모델을 기준으로 합니다.
Wan 2.2 14B - Text to Video
섹션 제목: “Wan 2.2 14B - Text to Video”텍스트 프롬프트만으로 비디오를 생성합니다. “A cat walking through a garden”처럼 장면을 묘사하면, AI가 움직이는 비디오를 만들어냅니다.

- 가장 자유도가 높지만, 원하는 결과를 정확히 통제하기 어려울 수 있음
- 대부분의 비디오 모델이 T2V를 기본으로 지원
Wan 2.2 14B - Image to Video
섹션 제목: “Wan 2.2 14B - Image to Video”하나의 정지 이미지를 입력으로 받아, 그 이미지가 움직이는 비디오를 생성합니다. 사진 속 인물이 걸어가거나, 풍경에 바람이 부는 효과를 줄 수 있습니다.

- 시작 프레임을 정확히 유지할 수 있어 일관성이 높음
Wan 2.2 14B - First-Last Frame to Video
섹션 제목: “Wan 2.2 14B - First-Last Frame to Video”시작 이미지와 끝 이미지, 두 장을 입력하면 그 사이를 자연스럽게 연결하는 비디오를 생성합니다.

- 시작과 끝을 정확히 제어할 수 있어 스토리보드 기반 작업에 적합
어떤 모델을 선택할까?
섹션 제목: “어떤 모델을 선택할까?”용도별 추천
섹션 제목: “용도별 추천”| 목적 | 추천 모델 | 이유 |
|---|---|---|
| 처음 시작할 때 | Wan 2.1 T2V (1.3B) | 가볍고 빠르며, 기본 파이프라인 이해에 적합 |
| 범용 고품질 | Wan 2.2 14B (Turbo) | 4스텝 터보로 빠르면서도 14B 모델의 품질 |
| 이미지→비디오 | Wan 2.2 I2V | 안정적인 I2V 결과물 |
| 비디오 제어 (V2V) | Wan 2.2 Fun Control | Canny 기반 동작 제어, 스타일 변환 |
| 시작/끝 프레임 제어 | Wan 2.2 FLF2V | 시작과 끝을 정확히 지정 |
환경별 추천
섹션 제목: “환경별 추천”| VRAM | 추천 모델 | 비고 |
|---|---|---|
| 8~12GB | Wan 2.1 T2V (1.3B) | 경량 모델, 낮은 해상도/프레임 수 |
| 12~16GB | Wan 2.2 5B, Wan 2.1 14B | 중간 규모 모델, fp8 양자화 활용 |
| 16~24GB | Wan 2.2 14B (Turbo) | 대부분의 비디오 워크플로우 실행 가능 |
| 24GB+ | 모든 모델 | 고해상도 + 많은 프레임 수로 생성 가능 |
핵심 정리
섹션 제목: “핵심 정리”기억해야 할 것들
섹션 제목: “기억해야 할 것들”- T2V → I2V → V2V 순서로 제어 수준이 높아집니다. 텍스트만으로 부족하면 이미지 입력을, 더 정밀한 제어가 필요하면 비디오 입력을 활용하세요.
- Wan 2.2는 다양한 비디오 생성 유형을 지원하는 모델입니다.
- 비디오 생성은 이미지보다 VRAM과 시간이 훨씬 많이 필요합니다. 처음에는 낮은 해상도와 적은 프레임 수로 시작하세요.