RTX 5070Ti로 WAN 2.2 Fun Control 첫 도전기: 16GB로도 충분할까?
5070 Ti 그래픽카드와 함께 시작된 예상치 못한 모험
몇일 전, 습관적으로 ComfyUI 관련 최신 소식들을 찾아보던 중이었다. 그런데 WAN 2.2 Fun Control이라는 처음 보는 이름이 눈에 띄었다.
"또 다른 AI 비디오 모델이 나왔구나" 하며 가볍게 생각했는데, 이번엔 정말 달랐다.
Alibaba에서 공개한 이 WAN 2.2 Fun Control은 단순한 텍스트-비디오 생성이 아닌, Canny, Depth, OpenPose 등 다양한 제어 방식으로 비디오를 정밀하게 컨트롤할 수 있다는 것이었다.
더욱 놀라운 건 16GB VRAM만으로도 충분히 돌릴 수 있다는 소식이었다.
그래서 결국... 이번에도 설치하고, 여러 방법으로 테스트해보느라 역시 꽤 피곤하긴 하다. 😅
WAN 2.2 Fun Control, 왜 특별한가?
혹시 여러분도 "AI 비디오 생성 모델이 또 하나 나왔구나" 하며 무심히 넘기려고 하셨나? 잠깐만.
WAN 2.2 Fun Control은 기존 모델들과는 차원이 다른 접근을 보여준다.
핵심은 혁신적인 Control Codes 메커니즘이다.
🎯 3가지 제어 방식의 마법
- Canny Control: 라인아트 기반으로 정확한 윤곽선 제어
- Depth Control: 깊이 정보를 활용한 3D 공간감 연출
- OpenPose Control: 인체 골격 정보로 자연스러운 동작 제어
기존의 "프롬프트만 던져주고 기도하기" 방식과는 완전히 다르다.
내가 원하는 대로 정확하게 제어할 수 있다는 게 가장 큰 매력이다.
내 테스트 환경: RTX 5070Ti 16GB로 도전해보다
먼저 내 PC 사양을 공개하겠다:
- GPU: RTX 5070Ti 16GB (얼마 전 새로산 녀석)
- CPU: Intel i7-13700K
- RAM: 64GB DDR4
- ComfyUI: 최신 네이티브 지원 버전
사실 처음엔 "16GB 그래픽카드면 충분할까?" 하는 걱정이 앞섰다. 다른 사용자들 후기를 보니 RTX 4090 24GB 사례는 많았지만, RTX 5070Ti 16GB 환경에서의 테스트 후기는 찾기 어려웠기 때문이다.
결론부터 말하면? 완전히 충분하다!
ComfyUI에서 WAN 2.2 Fun Control 설치하기
📥 1단계: 필수 모델 파일 다운로드
WAN 2.2 Fun Control을 사용하려면 여러 모델 파일이 필요하다. 내가 선택한 구성은 다음과 같다:
GGUF 모델 (메인)
Wan2.2-Fun-A14B-Control_HighNoise-Q6_0.gguf(12.0GB)Wan2.2-Fun-A14B-Control_LowNoise-Q6_0.gguf(12.0GB)
텍스트 인코더
umt5_xxl_fp8_e4m3fn_scaled.safetensors
VAE
wan_2.1_vae.safetensors
4단계 LoRA (속도 최적화용)
wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensorswan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
📁 2단계: 파일 배치 위치
ComfyUI/
├── models/
│ ├── unet/
│ │ ├── Wan2.2-Fun-A14B-Control_HighNoise-Q6_0.gguf
│ │ └── Wan2.2-Fun-A14B-Control_LowNoise-Q6_0.gguf
│ ├── text_encoders/
│ │ └── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ ├── vae/
│ │ └── wan_2.1_vae.safetensors
│ └── loras/
│ ├── wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
│ └── wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
실전 테스트: Control 방식별 체험기
🎨 Canny Control로 시작하는 첫 도전
첫 테스트로 Canny Control을 선택했다. 간단한 스케치를 기반으로 비디오를 생성하는 방식이다.
테스트 설정값:
- 해상도: 640×640 (안정적인 테스트를 위해)
- 프레임 수: 81프레임 (약 3.4초)
- Steps: 4단계 (LoRA 적용)
- CFG: 1.5
입력 이미지와 참조 동영상: 입력 이미지의 모델을 참조 동영상의 첫 화면과 거의 동일한 위치와 크기로 맞추는 것이 포인트였다.
결과: 예상보다 훨씬 좋았다!
라인아트의 구조를 정확히 따라가면서도, 자연스럽고 우아한 움직임을 잘 표현해냈다. 생성 시간은 약 3분 정도 소요됐다. Lightx2v를 사용해서 시간이 무척 짧아졌다. 다만, 품질은 조금 떨어진다.
🏃♂️ OpenPose Control: 인체 동작의 정밀 제어
두 번째로 OpenPose Control을 테스트했다. 이것도 정말 신기했다.
테스트 시나리오: 농구 슛 동작
- 입력: OpenPose로 추출한 농구 슈팅 자세 시퀀스
결과: 골격 구조를 정확히 따라가면서 자연스러운 근육 움직임과 유니폼의 주름까지 표현했다. 이것도 모델의 크기와 위치를 잘 맞추면 더 잘 표현하는 것 같았다.
특히 인상적이었던 건, 공의 궤적까지 자연스럽게 생성해낸 점이다.
단순히 포즈만 따라 하는 게 아니라, 동작의 의도와 맥락을 이해하고 있다는 느낌이었다.
RTX 5070Ti 성능 분석: 숫자로 보는 현실
💾 VRAM 사용량 모니터링
각 테스트별 VRAM 사용량을 실시간으로 모니터링해봤다:
| 해상도 | 프레임 수 | VRAM 사용량 | 생성 시간 |
|---|---|---|---|
| 640×640 | 81프레임 | 13.2GB | 3분 |
| 720×720 | 81프레임 | 14.8GB | 4분 |
놀라운 발견: RTX 5070Ti 16GB로도 720×720 해상도까지 무리 없이 처리할 수 있다는 점이다!
다른 사용자 후기에서 RTX 3060 12GB로는 840×420 해상도에서 900초(15분)가 걸렸다는 걸 보면, RTX 5070Ti의 성능은 확실히 한 단계 위인 것 같다.
실전 팁: 더 나은 결과를 위한 노하우
3일간의 삽질을 통해 터득한 실전 팁들을 공유한다:
🎯 1. 동영상 제작의 핵심
❌ 나쁜 예: "참조 동영상의 모델과 이미지 모델의 크기와 위치가 다를 경우 잘 생성하지 못함"
✅ 좋은 예: "이미지 모델 크기와 위치를 참조 동영상 첫 프레임과 동일하게 맞추는게 포인트"
⚙️ 2. 최적 설정값 (RTX 5070Ti 16GB 기준)
해상도: 640×640 (안정적) / 720×720 (고품질)
프레임 수: 81프레임 (3.4초) 권장
Steps: 4단계 (LoRA 사용)
CFG Scale: 1.5 (너무 높으면 부자연스러움)
Sampler: euler (안정적)
🧠 3. Control 이미지 준비의 중요성
각 제어 방식별로 고품질 Control 이미지를 준비하는 게 핵심이다:
- Canny: 선명하고 깔끔한 라인아트
- Depth: MiDaS나 DPT로 생성한 정확한 깊이 맵
- OpenPose: MediaPipe나 OpenPose로 추출한 정밀한 골격 정보
대충 만든 Control 이미지는 결과물도 대충 나온다. 이 부분에서 시간을 투자하는 게 정말 중요하다.
아직 아쉬운 점들: 완벽하지 않은 현실
WAN 2.2 Fun Control도 만능은 아니다. 사용하면서 발견한 한계점들:
🚫 1. 복잡한 다중 객체 처리의 어려움
여러 사람이 동시에 움직이는 장면에서는 가끔 객체들이 섞이거나 사라지는 현상이 발생했다.
예를 들어, 두 명이 춤추는 장면을 생성하려 했을 때, 중간 프레임에서 한 명이 갑자기 사라지거나 팔다리가 뒤바뀌는 일이 있었다.
⏱️ 2. 긴 영상 생성의 한계
121프레임(약 7초)을 넘어가면 후반부 품질이 눈에 띄게 떨어진다.
💾 3. 모델 파일 크기의 부담
Q6 GGUF 모델만 24GB (High + Low Noise), 여기에 텍스트 인코더, VAE, LoRA까지 합치면 총 35GB 가까이 된다. 컴퓨터 사용이 아직까지는 고사양이어야 좋은 결과물을 뽑을 수 있다.
다른 모델들과의 비교: WAN 2.2는 정말 최고일까?
호기심이 생겨서 다른 비디오 생성 모델들과도 간단히 비교해봤다:
🆚 vs Runway Gen-3
- 품질: Runway가 약간 우세
- 제어성: WAN 2.2가 압도적 승리
- 비용: WAN 2.2가 완승 (로컬 무료 vs $95/월)
🆚 vs Stable Video Diffusion
- 안정성: SVD가 더 안정적
- 창의성: WAN 2.2가 더 다양하고 동적
- 설치 복잡도: 비슷함
🆚 vs Pika Labs
- 사용 편의성: Pika가 더 간단
- 세밀한 제어: WAN 2.2가 압승
- 로컬 실행: WAN 2.2만 가능
종합 평가: 제어 가능성과 로컬 실행을 중시한다면 WAN 2.2 Fun Control이 현재 최고라고 생각한다.
마무리: 여러분도 도전해보시길!
3일간의 RTX 5070Ti + WAN 2.2 Fun Control 사용기를 마무리하겠다.
솔직히 말해서, 이 정도 수준의 제어 가능한 비디오 생성을 로컬에서 무료로 할 수 있다는 게 아직도 신기하다.
특히 RTX 5070Ti 16GB의 성능은 예상보다 훨씬 좋았다.
RTX 4090 24GB가 없어도 충분히 고품질 결과물을 만들 수 있다는 걸 확인했다.
🎯 이런 분들께 추천한다:
- ✅ RTX 4060 16GB 이상 GPU 보유자
- ✅ 비디오 제작에 관심 있는 크리에이터
- ✅ AI 기술 실험을 즐기는 얼리어답터
- ✅ 월 구독료 없이 로컬에서 작업하고 싶은 사용자
🚫 이런 상황이라면 조금 더 기다리시길:
- ❌ 8GB 미만 VRAM
- ❌ 복잡한 설정 과정이 부담스러운 경우
- ❌ 즉시 완벽한 결과를 원하는 경우



댓글 쓰기