콘텐츠로 이동

01. 이미지 생성 (Text-to-Image)

**Text-to-Image(T2I)**는 텍스트만으로 이미지를 생성하는 가장 기본적인 AI 이미지 생성 방식입니다. “A cat sitting on a rainbow”처럼 원하는 장면을 글로 묘사하면, AI 모델이 이를 해석하여 이미지를 만들어 냅니다.

이 챕터에서는 다음을 학습합니다:

  • Text-to-Image 기본 워크플로우 구조
  • Flux, SDXL, Qwen-Image 등 주요 이미지 모델들의 특징
  • 용도와 환경에 맞는 모델 선택 가이드

모든 Text-to-Image 워크플로우는 아래의 다섯 단계를 공유합니다. 모델마다 사용하는 노드 이름이나 세부 설정은 다르지만, 큰 흐름은 동일합니다.

단계하는 일관련 노드 (예시)
1. 모델 로드이미지 생성에 필요한 모델 선택 및 불러오기CheckpointLoaderSimple, UNETLoader, CLIPLoader, VAELoader
2. 텍스트 인코딩생성하고 싶은 이미지를 설명한 글을 모델이 이해할 수 있도록 변환CLIPTextEncode, CLIPTextEncodeFlux
3. 빈 잠재 이미지이미지 생성을 위한 가로, 세로 넓이 세팅EmptyLatentImage, EmptySD3LatentImage
4. 샘플링이미지 생성 중KSampler
5. 디코딩/저장생성된 이미지를 저장VAEDecode, SaveImage

이미지 모델 로드 방식: 통합 vs 분리

섹션 제목: “이미지 모델 로드 방식: 통합 vs 분리”

모델을 로드하는 방식은 크게 두 가지입니다.

통합 로드 (CheckpointLoaderSimple) 하나의 파일(.safetensors)에 UNET + CLIP + VAE가 모두 포함되어 있어, 노드 하나로 모든 구성 요소를 한 번에 로드합니다. Flux Schnell fp8, SDXL, SD3.5 등이 이 방식을 사용합니다.

분리 로드 (UNETLoader/Load diffusion model + CLIPLoader + VAELoader) 각 구성 요소를 별도 파일에서 개별적으로 로드합니다. 모델 조합을 자유롭게 바꿀 수 있고, 필요한 정밀도(fp16, fp8 등)를 선택할 수 있습니다. Flux, Qwen, ZIT 등 최신 모델이 이 방식을 사용합니다.

방식특징
KSamplersteps, cfg, sampler, scheduler를 한 노드에서 설정. 간단하고 직관적

봄에 서울 카페에서 노트북으로 일하는 장면을 예시로 들면

문장형: A candid, photo-realistic scene inside a cozy Seoul café in spring: a person working on a laptop by a window with soft morning sunlight, cherry blossoms faintly visible outside, shallow depth of field, warm natural tones, 35mm lens look, high detail, no text, no logos

태그형: photorealistic, candid, Seoul cafe, spring, laptop, window seat, soft morning light, cherry blossoms outside, shallow depth of field, warm tones, 35mm, high detail, cozy atmosphere, no text, no logos


해당 모델은 문장형 프롬프트 사용이 권장됩니다(태그형 프롬프트도 사용은 가능하나 성능이 저하됨)

모델속도품질
Flux.1 Schnell매우 빠름보통
Flux.1 Dev보통좋음
Flux.2 Dev보통~빠름우수
Flux.2 Klein 4B매우 빠름좋음
Flux.2 Klein 9B빠름우수
Flux.1 Krea Dev보통좋음

해당 모델은 태그형 프롬프트만 지원합니다.

모델속도품질
SDXL보통우수
SDXL Turbo매우 빠름보통

Qwen-Image는 다국어 프롬프트 지원이 뛰어난 모델 계열입니다. Qwen 2.5 VL 기반의 텍스트 인코더를 사용하여 한국어, 중국어, 영어 등 다양한 언어로 프롬프트를 작성할 수 있습니다.

모델속도품질
Qwen-Image 20B빠름
Qwen-Image 2512유연최상
Qwen-Image 2512 Turbo매우 빠름최상
Qwen-Image-Edit-2509유연
Qwen-Image-Edit-2512유연최상

Z-Image-Turbo

  • Qwen 3 4B 텍스트 인코더 사용
  • 8 steps로 빠른 생성
  • 실사 이미지에 최적화 된 모델

Z-Image-Base

  • Qwen 3 4B 텍스트 인코더 사용
  • 실사 이미지에 최적화 된 모델

모델 선택이 어렵다면, 아래 표를 참고하세요.

목적추천 모델이유
처음 시작할 때Z-Image-Turbo8스텝, 빠른 속도, Getting Started 기본 모델
빠른 생성/저사양/경량Flux.1 Schnell4스텝, 빠른 속도, Apache 2.0
범용 고품질Flux.1 Dev, Z-Image-Turbo균형 잡힌 품질과 속도
사실적 사진Flux.1 Krea Dev사실적 사진에 파인튜닝
텍스트 렌더링Qwen-Image 2512, Flux.2 Dev이미지 안에 글자를 정확히 생성
애니메/일러스트SDXL(Illustrious-XL, NoobAI-XL)애니메 스타일에 특화
한국어 프롬프트Qwen-Image 계열한국어, 중국어, 영어 다국어 지원

처음 ComfyUIText-to-Image를 시작한다면, 다음 순서를 추천합니다.

  1. Z-Image-Turbo로 기본 파이프라인 이해하기
  2. Flux.1 Dev 또는 Flux.2 Dev로 고품질 생성
    • 더 정교한 프롬프트로 고품질 결과물 생성
  3. 목적에 맞는 특화 모델로 확장
    • 애니메 스타일이 필요하면 SDXL
    • 한국어 프롬프트 시도해 보고 싶으면 Qwen-Image

  • 모든 Text to Image 워크플로우는 모델 로드 → 텍스트 인코딩 → 샘플링 → 디코딩 → 저장의 동일한 흐름을 따릅니다.
  • 모델마다 최적의 steps, CFG, sampler, scheduler 값이 다릅니다. 템플릿의 기본값을 먼저 사용하고, 천천히 조정해 보세요.