01. 이미지 생성 (Text-to-Image)

이 챕터에서 다루는 것

**Text-to-Image(T2I)**는 텍스트만으로 이미지를 생성하는 가장 기본적인 AI 이미지 생성 방식입니다. “A cat sitting on a rainbow”처럼 원하는 장면을 글로 묘사하면, AI 모델이 이를 해석하여 이미지를 만들어 냅니다.

이 챕터에서는 다음을 학습합니다:

Text-to-Image 기본 워크플로우 구조
Flux, SDXL, Qwen-Image 등 주요 이미지 모델들의 특징
용도와 환경에 맞는 모델 선택 가이드

기본 파이프라인 이해하기

모든 Text-to-Image 워크플로우는 아래의 다섯 단계를 공유합니다. 모델마다 사용하는 노드 이름이나 세부 설정은 다르지만, 큰 흐름은 동일합니다.

단계별 설명

단계	하는 일	관련 노드 (예시)
1. 모델 로드	이미지 생성에 필요한 모델 선택 및 불러오기	`CheckpointLoaderSimple`, `UNETLoader`, `CLIPLoader`, `VAELoader`
2. 텍스트 인코딩	생성하고 싶은 이미지를 설명한 글을 모델이 이해할 수 있도록 변환	`CLIPTextEncode`, `CLIPTextEncodeFlux`
3. 빈 잠재 이미지	이미지 생성을 위한 가로, 세로 넓이 세팅	`EmptyLatentImage`, `EmptySD3LatentImage`
4. 샘플링	이미지 생성 중	`KSampler`
5. 디코딩/저장	생성된 이미지를 저장	`VAEDecode`, `SaveImage`

이미지 모델 로드 방식: 통합 vs 분리

모델을 로드하는 방식은 크게 두 가지입니다.

통합 로드 (CheckpointLoaderSimple) 하나의 파일(.safetensors)에 UNET + CLIP + VAE가 모두 포함되어 있어, 노드 하나로 모든 구성 요소를 한 번에 로드합니다. Flux Schnell fp8, SDXL, SD3.5 등이 이 방식을 사용합니다.

분리 로드 (UNETLoader/Load diffusion model + CLIPLoader + VAELoader) 각 구성 요소를 별도 파일에서 개별적으로 로드합니다. 모델 조합을 자유롭게 바꿀 수 있고, 필요한 정밀도(fp16, fp8 등)를 선택할 수 있습니다. Flux, Qwen, ZIT 등 최신 모델이 이 방식을 사용합니다.

샘플러 방식: KSampler

방식	특징
KSampler	steps, cfg, sampler, scheduler를 한 노드에서 설정. 간단하고 직관적

프롬프트 형식

봄에 서울 카페에서 노트북으로 일하는 장면을 예시로 들면

문장형: A candid, photo-realistic scene inside a cozy Seoul café in spring: a person working on a laptop by a window with soft morning sunlight, cherry blossoms faintly visible outside, shallow depth of field, warm natural tones, 35mm lens look, high detail, no text, no logos

태그형: photorealistic, candid, Seoul cafe, spring, laptop, window seat, soft morning light, cherry blossoms outside, shallow depth of field, warm tones, 35mm, high detail, cozy atmosphere, no text, no logos

모델 소개

Flux 계열

해당 모델은 문장형 프롬프트 사용이 권장됩니다(태그형 프롬프트도 사용은 가능하나 성능이 저하됨)

모델	속도	품질
Flux.1 Schnell	매우 빠름	보통
Flux.1 Dev	보통	좋음
Flux.2 Dev	보통~빠름	우수
Flux.2 Klein 4B	매우 빠름	좋음
Flux.2 Klein 9B	빠름	우수
Flux.1 Krea Dev	보통	좋음

SDXL 계열

해당 모델은 태그형 프롬프트만 지원합니다.

모델	속도	품질
SDXL	보통	우수
SDXL Turbo	매우 빠름	보통

Qwen Image 계열

Qwen-Image는 다국어 프롬프트 지원이 뛰어난 모델 계열입니다. Qwen 2.5 VL 기반의 텍스트 인코더를 사용하여 한국어, 중국어, 영어 등 다양한 언어로 프롬프트를 작성할 수 있습니다.

모델	속도	품질
Qwen-Image 20B	빠름	상
Qwen-Image 2512	유연	최상
Qwen-Image 2512 Turbo	매우 빠름	최상
Qwen-Image-Edit-2509	유연	상
Qwen-Image-Edit-2512	유연	최상

기타 모델

Z-Image-Turbo

Qwen 3 4B 텍스트 인코더 사용
8 steps로 빠른 생성
실사 이미지에 최적화 된 모델

Z-Image-Base

Qwen 3 4B 텍스트 인코더 사용
실사 이미지에 최적화 된 모델

어떤 모델을 선택할까?

용도별 추천

모델 선택이 어렵다면, 아래 표를 참고하세요.

목적	추천 모델	이유
처음 시작할 때	Z-Image-Turbo	8스텝, 빠른 속도, Getting Started 기본 모델
빠른 생성/저사양/경량	Flux.1 Schnell	4스텝, 빠른 속도, Apache 2.0
범용 고품질	Flux.1 Dev, Z-Image-Turbo	균형 잡힌 품질과 속도
사실적 사진	Flux.1 Krea Dev	사실적 사진에 파인튜닝
텍스트 렌더링	Qwen-Image 2512, Flux.2 Dev	이미지 안에 글자를 정확히 생성
애니메/일러스트	SDXL(Illustrious-XL, NoobAI-XL)	애니메 스타일에 특화
한국어 프롬프트	Qwen-Image 계열	한국어, 중국어, 영어 다국어 지원

입문자를 위한 추천 학습 경로

처음 ComfyUI로 Text-to-Image를 시작한다면, 다음 순서를 추천합니다.

Z-Image-Turbo로 기본 파이프라인 이해하기
- https://nordy.ai/comfyui/?flow=69673b4b1b32b12f62275edc
Flux.1 Dev 또는 Flux.2 Dev로 고품질 생성
- 더 정교한 프롬프트로 고품질 결과물 생성
목적에 맞는 특화 모델로 확장
- 애니메 스타일이 필요하면 SDXL
- 한국어 프롬프트 시도해 보고 싶으면 Qwen-Image

핵심 정리

기억해야 할 것들

모든 Text to Image 워크플로우는 모델 로드 → 텍스트 인코딩 → 샘플링 → 디코딩 → 저장의 동일한 흐름을 따릅니다.
모델마다 최적의 steps, CFG, sampler, scheduler 값이 다릅니다. 템플릿의 기본값을 먼저 사용하고, 천천히 조정해 보세요.