01. 이미지 생성 (Text-to-Image)
이 챕터에서 다루는 것
섹션 제목: “이 챕터에서 다루는 것”**Text-to-Image(T2I)**는 텍스트만으로 이미지를 생성하는 가장 기본적인 AI 이미지 생성 방식입니다. “A cat sitting on a rainbow”처럼 원하는 장면을 글로 묘사하면, AI 모델이 이를 해석하여 이미지를 만들어 냅니다.
이 챕터에서는 다음을 학습합니다:
- Text-to-Image 기본 워크플로우 구조
- Flux, SDXL, Qwen-Image 등 주요 이미지 모델들의 특징
- 용도와 환경에 맞는 모델 선택 가이드
기본 파이프라인 이해하기
섹션 제목: “기본 파이프라인 이해하기”모든 Text-to-Image 워크플로우는 아래의 다섯 단계를 공유합니다. 모델마다 사용하는 노드 이름이나 세부 설정은 다르지만, 큰 흐름은 동일합니다.
단계별 설명
섹션 제목: “단계별 설명”| 단계 | 하는 일 | 관련 노드 (예시) |
|---|---|---|
| 1. 모델 로드 | 이미지 생성에 필요한 모델 선택 및 불러오기 | CheckpointLoaderSimple, UNETLoader, CLIPLoader, VAELoader |
| 2. 텍스트 인코딩 | 생성하고 싶은 이미지를 설명한 글을 모델이 이해할 수 있도록 변환 | CLIPTextEncode, CLIPTextEncodeFlux |
| 3. 빈 잠재 이미지 | 이미지 생성을 위한 가로, 세로 넓이 세팅 | EmptyLatentImage, EmptySD3LatentImage |
| 4. 샘플링 | 이미지 생성 중 | KSampler |
| 5. 디코딩/저장 | 생성된 이미지를 저장 | VAEDecode, SaveImage |
이미지 모델 로드 방식: 통합 vs 분리
섹션 제목: “이미지 모델 로드 방식: 통합 vs 분리”모델을 로드하는 방식은 크게 두 가지입니다.
통합 로드 (CheckpointLoaderSimple)
하나의 파일(.safetensors)에 UNET + CLIP + VAE가 모두 포함되어 있어, 노드 하나로 모든 구성 요소를 한 번에 로드합니다. Flux Schnell fp8, SDXL, SD3.5 등이 이 방식을 사용합니다.
분리 로드 (UNETLoader/Load diffusion model + CLIPLoader + VAELoader) 각 구성 요소를 별도 파일에서 개별적으로 로드합니다. 모델 조합을 자유롭게 바꿀 수 있고, 필요한 정밀도(fp16, fp8 등)를 선택할 수 있습니다. Flux, Qwen, ZIT 등 최신 모델이 이 방식을 사용합니다.
샘플러 방식: KSampler
섹션 제목: “샘플러 방식: KSampler”| 방식 | 특징 |
|---|---|
| KSampler | steps, cfg, sampler, scheduler를 한 노드에서 설정. 간단하고 직관적 |
프롬프트 형식
섹션 제목: “프롬프트 형식”봄에 서울 카페에서 노트북으로 일하는 장면을 예시로 들면
문장형: A candid, photo-realistic scene inside a cozy Seoul café in spring: a person working on a laptop by a window with soft morning sunlight, cherry blossoms faintly visible outside, shallow depth of field, warm natural tones, 35mm lens look, high detail, no text, no logos
태그형: photorealistic, candid, Seoul cafe, spring, laptop, window seat, soft morning light, cherry blossoms outside, shallow depth of field, warm tones, 35mm, high detail, cozy atmosphere, no text, no logos
모델 소개
섹션 제목: “모델 소개”Flux 계열
섹션 제목: “Flux 계열”해당 모델은 문장형 프롬프트 사용이 권장됩니다(태그형 프롬프트도 사용은 가능하나 성능이 저하됨)
| 모델 | 속도 | 품질 |
|---|---|---|
| Flux.1 Schnell | 매우 빠름 | 보통 |
| Flux.1 Dev | 보통 | 좋음 |
| Flux.2 Dev | 보통~빠름 | 우수 |
| Flux.2 Klein 4B | 매우 빠름 | 좋음 |
| Flux.2 Klein 9B | 빠름 | 우수 |
| Flux.1 Krea Dev | 보통 | 좋음 |
SDXL 계열
섹션 제목: “SDXL 계열”해당 모델은 태그형 프롬프트만 지원합니다.
| 모델 | 속도 | 품질 |
|---|---|---|
| SDXL | 보통 | 우수 |
| SDXL Turbo | 매우 빠름 | 보통 |
Qwen Image 계열
섹션 제목: “Qwen Image 계열”Qwen-Image는 다국어 프롬프트 지원이 뛰어난 모델 계열입니다. Qwen 2.5 VL 기반의 텍스트 인코더를 사용하여 한국어, 중국어, 영어 등 다양한 언어로 프롬프트를 작성할 수 있습니다.
| 모델 | 속도 | 품질 |
|---|---|---|
| Qwen-Image 20B | 빠름 | 상 |
| Qwen-Image 2512 | 유연 | 최상 |
| Qwen-Image 2512 Turbo | 매우 빠름 | 최상 |
| Qwen-Image-Edit-2509 | 유연 | 상 |
| Qwen-Image-Edit-2512 | 유연 | 최상 |
기타 모델
섹션 제목: “기타 모델”Z-Image-Turbo
- Qwen 3 4B 텍스트 인코더 사용
- 8 steps로 빠른 생성
- 실사 이미지에 최적화 된 모델
Z-Image-Base
- Qwen 3 4B 텍스트 인코더 사용
- 실사 이미지에 최적화 된 모델
어떤 모델을 선택할까?
섹션 제목: “어떤 모델을 선택할까?”용도별 추천
섹션 제목: “용도별 추천”모델 선택이 어렵다면, 아래 표를 참고하세요.
| 목적 | 추천 모델 | 이유 |
|---|---|---|
| 처음 시작할 때 | Z-Image-Turbo | 8스텝, 빠른 속도, Getting Started 기본 모델 |
| 빠른 생성/저사양/경량 | Flux.1 Schnell | 4스텝, 빠른 속도, Apache 2.0 |
| 범용 고품질 | Flux.1 Dev, Z-Image-Turbo | 균형 잡힌 품질과 속도 |
| 사실적 사진 | Flux.1 Krea Dev | 사실적 사진에 파인튜닝 |
| 텍스트 렌더링 | Qwen-Image 2512, Flux.2 Dev | 이미지 안에 글자를 정확히 생성 |
| 애니메/일러스트 | SDXL(Illustrious-XL, NoobAI-XL) | 애니메 스타일에 특화 |
| 한국어 프롬프트 | Qwen-Image 계열 | 한국어, 중국어, 영어 다국어 지원 |
입문자를 위한 추천 학습 경로
섹션 제목: “입문자를 위한 추천 학습 경로”처음 ComfyUI로 Text-to-Image를 시작한다면, 다음 순서를 추천합니다.
- Z-Image-Turbo로 기본 파이프라인 이해하기
- Flux.1 Dev 또는 Flux.2 Dev로 고품질 생성
- 더 정교한 프롬프트로 고품질 결과물 생성
- 목적에 맞는 특화 모델로 확장
- 애니메 스타일이 필요하면 SDXL
- 한국어 프롬프트 시도해 보고 싶으면 Qwen-Image
핵심 정리
섹션 제목: “핵심 정리”기억해야 할 것들
섹션 제목: “기억해야 할 것들”- 모든 Text to Image 워크플로우는
모델 로드 → 텍스트 인코딩 → 샘플링 → 디코딩 → 저장의 동일한 흐름을 따릅니다. - 모델마다 최적의 steps, CFG, sampler, scheduler 값이 다릅니다. 템플릿의 기본값을 먼저 사용하고, 천천히 조정해 보세요.