직접 만들고, 내 생각을 더하다
세상의 트렌드를 읽고 싶어하는 한 사람으로, 목공 DIY를 좋아하고, AI, n8n을 사용해 자동화 프로세스를 배우고 있다.

Z-Image ControlNet으로 로컬 PC 이미지 편집 완전 정복

Z-Image ControlNet 패치로 나노바나나급 이미지 편집을 로컬 PC에서 구현. RTX 5070 Ti 기준 10-15초 처리, 월 구독료 제로. 업스케일링, 인페인팅, 포즈 제어까지 완벽 지원하는 ComfyUI 워크플로우 완전 가이드.

Z-Image ControlNet으로 나노바나나 킬러 만들기: 로컬 PC 이미지 편집 완전 정복 🎨

핵심 요약: Z-Image ControlNet 패치로 Upscaling, Inpainting, 포즈 제어까지 로컬 PC에서 완벽 구현. 월 구독료 $0, RTX 5070 Ti 기준 10-15초 처리, 나노바나나 수준의 편집 퀄리티.

나노바나나 Pro 월 구독료 얼마야? 💸

나노바나나 써보신 분들은 알 거다.
배경 교체, 의상 변경, 업스케일링까지 완벽하지?
근데 Pro 플랜에 월 구독료를 내고 쓰기엔 부담스러울 수 있다. 게다가 API 제한 걸리면 답답하고. 그런데 만약 내 PC에서 나노바나나급 편집이 가능하다면?

나는 RTX 5070 Ti로 해결해 보았다.
Z-Image ControlNet 패치 + ComfyUI 조합으로 말이다.
이제 배경 교체도, 포즈 유지하며 스타일 변경도, 8K 업스케일도 전부 로컬에서 뚝딱 처리한다.
월 구독료? 제로. API 제한? 없다. 그냥 내 PC가 프로급 이미지 편집 스튜디오가 된 거다.

왜 지금 Z-Image ControlNet 패치인가? 🤔

기존 Z-Image Turbo는 빠른 생성 속도로 주목받았다.
1024x1024 이미지를 8초 만에 뽑아내니까. 근데 편집 기능이 약했다.
단순 생성은 되는데 정밀한 제어가 어려웠지.

그런데 Z-Image ControlNet 통합 패치가 나오면서 게임이 바뀌었다.
이제 Canny, Depth, Pose 같은 ControlNet 기능을 Z-Image에서 쓸 수 있다.
이게 무슨 의미냐면:

  • 포즈 유지: 인물 구도는 그대로 두고 의상이나 배경만 바꾼다
  • 정밀 편집: SAM3로 객체 선택 후 자연스럽게 인페인팅
  • 업스케일링: 1024 → 2048 고품질 확대(최대 8K 이미지로 확대 가능)
  • 빠른 속도 유지: 기존 Turbo 속도 그대로

💡 Pro Tip: ControlNet Union 패치는 여러 제어 방식을 하나의 모델로 통합했다. Canny, Depth, Pose를 따로 다운받을 필요 없이 하나의 safetensors 파일로 전부 해결된다!

내가 직접 해본 설치 과정 ⚙️

처음에는 복잡해 보였다.근데 막상 해보니까 30분이면 끝난다.
아래 순서대로 따라하면 된다.

1️⃣ VideoX-Fun 레포지토리 클론
(Ultimate SD upscale 노드를 사용하면 설치 안해도 됨)

git clone https://github.com/aigc-apps/VideoX-Fun.git
cd VideoX-Fun

2️⃣ model_patches 폴더 생성

ComfyUI의 models 폴더 안에 model_patches 디렉토리를 만들어야 한다.

mkdir -p models/model_patches

최종 폴더 구조는 이렇게 된다:

📦 models/
├── 📂 Diffusion_Transformer/
│   └── 📂 Z-Image-Turbo/
├── 📂 model_patches/
│   └── 📦 Z-Image-Turbo-Fun-Controlnet-Union.safetensors

3️⃣ ControlNet 패치 다운로드

HuggingFace에서 Z-Image-Turbo-Fun-Controlnet-Union.safetensors 파일을 다운받는다.
👉 HuggingFace 다운로드 링크

다운받은 파일을 models/model_patches/ 폴더에 넣으면 된다.
(personalized_Model 폴더를 만들어 넣으라고 하는데, 위 폴더에 넣으면 된다)

4️⃣ 필수 커스텀 노드 설치

ComfyUI의 custom_nodes 폴더에서 터미널을 열고 아래 명령어를 실행한다.

SAM3 설치 (MASK 객체 선택용):

git clone https://github.com/wouterverweirder/comfyui_sam3.git

FlashVSR 설치 (업스케일링용):

git clone https://github.com/1038lab/ComfyUI-FlashVSR.git

5️⃣ ComfyUI 업데이트

이게 진짜 중요하다.
ComfyUI Manager를 열어서 "Update ComfyUI"를 실행한다.
최신 버전이 아니면 ControlNet 패치가 제대로 로드 안 될 수 있다.

⚠️ 주의사항: 나는 처음에 ComfyUI 업데이트를 안 해서 모델 로드 에러가 났다. 반드시 최신 버전으로 업데이트하자!

워크플로우 다운로드 및 설정 🎯

OpenArt에 위에서 말한 기능을 구현하는 워크플로우가 있다.
이걸 다운받아서 ComfyUI에 로드하면 바로 쓸 수 있다.
👉 OpenArt 워크플로우 다운로드

워크플로우를 열면 이런 노드들이 보인다:

  • Z-Image Turbo 노드: 기본 이미지 생성
  • ControlNet Union 노드: Canny/Depth/Pose 제어
  • SAM3 노드: 객체 자동 선택
  • FlashVSR 노드: 고품질 업스케일링
  • Inpainting 노드: 마스크 기반 편집

💚 권장사항: Z-Image 모델은 GGUF Q8 버전을 추천한다. FP16보다 VRAM 사용량이 적고, 다른 커스텀 노드와 호환성도 좋다. 나는 Q8로 쓰는데 퀄리티 차이 거의 못 느낀다.

실전 활용법: Upscaling, Inpainting, ControlNet 🚀

1️⃣ Upscaling: 1024 → 2048 자연스럽게

FlashVSR 노드(또는 Ultimate SD Upscale 노드)를 연결하면 저해상도 이미지를 고품질로 확대할 수 있다. 나노바나나처럼 디테일도 살아나고 아티팩트도 거의 없다.

설정값:

  • 입력 해상도: 1024x1024
  • 출력 해상도: 2048x2048
  • 처리 시간: 약 12초 (RTX 5070 Ti)
  • VRAM 사용량: 10GB

2️⃣ Inpainting: SAM3로 배경 교체(정교한 Mask 처리)

SAM3 노드가 진짜 킬러 기능이다. 클릭 몇 번으로 객체를 자동 선택하고, 그 부분만 다시 생성할 수 있다.

활용 예시:

  • 인물은 그대로 두고 배경만 바꾸기
  • 옷 색깔이나 디자인 변경
  • 불필요한 객체 제거

나는 이걸로 실내 배경을 야외로 바꿨는데, 경계선도 자연스럽고 조명도 잘 맞았다. 나노바나나 못지않은 퀄리티였다.

3️⃣ ControlNet: 포즈 유지하며 스타일 변경

ControlNet Union 패치의 핵심이다. 원본 이미지의 구도는 그대로 두고 스타일만 바꿀 수 있다.

제어 방식 용도 예시
Canny 윤곽선 유지 건물 구조는 그대로, 스타일만 애니메이션으로
Depth 깊이감 유지 풍경 사진 → 판타지 세계
Pose 인물 포즈 유지 같은 포즈, 다른 의상/헤어스타일

성능 테스트 결과: RTX 5070 Ti 기준 💪

실제로 돌려본 성능을 공유한다. 하드웨어는 RTX 5070 Ti (16GB VRAM)다.

작업 처리 시간 VRAM 사용 퀄리티
기본 생성 (1024x1024) 8-10초 8GB ⭐⭐⭐⭐⭐
ControlNet 적용 12-15초 10GB ⭐⭐⭐⭐⭐
Upscaling (2048x2048) 10-12초 12GB ⭐⭐⭐⭐
Inpainting (배경 교체) 15-18초 11GB ⭐⭐⭐⭐⭐

놀라운 건 전력 소비다. RTX 5070 Ti는 TDP가 220W밖에 안 된다. 하루 종일 돌려도 전기세는 몇백 원 수준이다. 나노바나나 월 구독료를 내는 것보다 훨씬 경제적이다.

비용 비교: 나노바나나 vs 로컬 GPU 💰

실제로 돈이 얼마나 절약되는지 계산해볼까?

항목 나노바나나 Pro
(Google AI Pro 구독)
로컬 GPU (5070 Ti)
월 비용 $19.99 전기세 약 4,000원
연간 비용 $240 (약 35만 원) 약 5만 원
제한 API 제한 있음(일 100장) 무제한
데이터 프라이버시 클라우드 업로드 로컬 저장
오프라인 작업 불가 가능

한 달에 2만 5천원 절약되는 거다. 1년이면 35만 원. GPU 값이 100만 원대라고 해도 2-3년이면 본전 뽑는다. 게다가 GPU는 이미지 편집만 하는 게 아니다. 영상 생성, AI 학습 등 다른 작업도 할 수 있으니까 훨씬 가치가 높다.

실전 팁: 품질을 더 높이려면? ✨

1. GGUF Q8 vs FP16 모델

나는 처음에 FP16을 썼는데 VRAM이 부족해서 뻗을 떄가 있었다.
GGUF Q8로 바꾸니까 VRAM 사용량이 30% 줄었다. 퀄리티는 거의 똑같은데 속도도 비슷하다. 무조건 Q8 추천한다.

2. VRAM 부족 시 해결법

  • ComfyUI 설정에서 --lowvram 옵션 활성화
  • 배치 사이즈 1로 고정
  • 불필요한 노드 언로드

3. 프롬프트 최적화

Z-Image는 영어 프롬프트에서 최고 성능을 발휘한다.
이전 글에서 다룬 Florence-2를 써서 프롬프트를 확장해도 되고, 이 워크플로우에서는 QwenVL로 이미지에서 프롬프트를 만들어서 사용했다.

4. ControlNet 강도 조절

ControlNet의 strength 값을 0.5-0.8 사이로 조절하면 원본과 생성 이미지의 균형을 맞출 수 있다. 1.0으로 해서 원본에 충실하게 하거나, 0.3 이하로 제어를 약하게 할 수도 있다.

한계와 개선점 ⚠️

완벽한 건 아니다. 솔직하게 한계도 얘기해 보자.

1. 텍스트 렌더링

Z-Image도 다른 Diffusion 모델처럼 텍스트 렌더링이 약하다. 이미지 안에 글자를 넣고 싶으면 나중에 따로 편집하는 게 좋다.

2. 복잡한 인페인팅

작은 디테일 편집은 좀 까다롭다. 큰 영역(배경, 의상)은 완벽한데, 손가락이나 작은 장신구 같은 건 여러 번 시도해야 한다.

3. VRAM 제약

12GB VRAM 이하면 2048x2048 업스케일이 버거울 수 있다(이건 Z Image GGUF를 사용하면 가능할 것 같다. 해보지는 못했다). 16GB는 있어야 여유롭다.

마무리하며: 로컬 PC의 가능성 🎉

나노바나나급 이미지 편집, 생각보다 어렵지 않다.
GPU 하나면 충분하다.
Z-Image ControlNet 패치 덕분에 이제 로컬 PC에서도 프로급 편집이 가능해졌다.

나는 RTX 5070 Ti로 한 달에 수백 장의 이미지를 생성하거나 편집하고 있다.
배경 교체, 의상 변경, 4K 업스케일까지 전부 가능하게 되었다.
월 구독료? 제로. 이미지 생성은 전기세만 나갈 뿐이다.

🚀 지금 바로 시작하세요!

  • ControlNet 패치 다운받고
  • OpenArt 워크플로우 로드하면 끝!

Z Image로 생성한 이미지 라이브러리 🎯

빠르게 이미지를 생성하는 것도 필요하지만, 고퀄리티의 이미지를 생성하는 것도 필요할 때가 있다. 내가 참고하고자 하는 이미지를 가지고 QwenVL로 프롬프트를 생성할 때, 양자화는 8bit, Ultra detailed description, Max Token은 1024로 생성하도록 하면 퀄리티가 더 좋은 이미지를 생성할 수 있다.
대신 생성시간이 많이 걸리고, GPU Vram이 부족하면 멈출 수도 있다.
(참고용 이미지 크기를 1024 픽셀 정도로 줄이면 VRAM 부족 현상을 방지할 수 있음)









Tip. QwenVL로 프롬프트를 만들어 놓은 후, 프롬프트를 저장해 두자. 나중에 원하는대로 조금씩 변경해서 사용하면 원하는 이미지를 쉽게 생성할 수 있다.

이제 이미지 편집도 내 손안에서, 내 비용으로, 내 속도로 해결할 수 있는 시대다.
GPU 하나면 충분하다.
🎨


댓글 쓰기