Wan 2.2가 2025년 7월 출시되면서 AI 비디오 생성 분야에 혁명적 변화를 가져왔다.
혁신적인 Mixture-of-Experts(MoE) 아키텍처를 도입한 이 모델은 영화급 품질의 비디오를 생성하면서도 일반 소비자 하드웨어에서 구동 가능하다는 놀라운 성과를 달성했다. Apache 2.0 라이선스 하에 완전 오픈소스로 제공되며, 상업적 사용에 제한이 없어 개발자와 크리에이터들에게 새로운 가능성을 열어주고 있다.
하지만 Wan 2.2는 단순한 업그레이드가 아니다. 기존 Wan 2.1 대비 65.6% 더 많은 이미지와 83.2% 더 많은 비디오 데이터로 훈련되었으며, 전문적인 영화 촬영 기법과 미학적 요소까지 학습했다. 이는 단순히 비디오를 생성하는 것을 넘어서, 진정한 영화적 표현력을 갖춘 콘텐츠 제작 도구로서의 위치를 확립했다.
혁신적 MoE 아키텍처가 바꾼 게임의 룰
Wan 2.2의 가장 주목할 만한 특징은 비디오 확산 모델 최초의 MoE 아키텍처 도입이다.
이 시스템은 두 개의 전문화된 모델로 구성된다.
고노이즈(High-noise) 전문가는 비디오 생성 초기 단계에서 전체적인 레이아웃과 구조를 담당하며, 저노이즈(Low-noise) 전문가는 후반부에서 세밀한 디테일과 품질 개선을 처리한다. 총 27B 파라미터를 보유하지만 실제 추론 시에는 14B 파라미터만 활성화되어, 14B 모델과 동일한 계산 비용으로 27B 모델의 성능을 달성한다.
이러한 아키텍처는 Signal-to-Noise Ratio(SNR)에 따라 동적으로 전환되며, Wan-Bench 2.0에서 기존 Wan 2.1과 하이브리드 구성 대비 최저 검증 손실을 기록했다. 실제로 생성된 비디오 분포가 실제 데이터와 가장 유사한 결과를 보여준다.
세 가지 모델 변형으로 다양한 니즈 충족
T2V-A14B: 텍스트에서 비디오로의 최고봉
T2V(Text-to-Video) A14B 모델은 MoE 아키텍처의 정점을 보여준다. 480P와 720P를 동시에 지원하며, 상업용 모델들을 능가하는 성능을 Wan-Bench 2.0에서 입증했다. 하지만 80GB VRAM이 필요한 고사양 요구사항으로 인해 주로 전문가용으로 분류된다.
I2V-A14B: 이미지를 영화로 만드는 마법
I2V(Image-to-Video) A14B 모델은 정적 이미지를 생동감 있는 비디오로 변환한다. 입력 이미지의 종횡비를 유지하며 720P 해상도를 지원한다. 특히 비현실적인 카메라 움직임을 줄이고 스타일화된 장면에서의 안정성을 강화했다는 점이 주목할 만하다.
TI2V-5B: 소비자 하드웨어의 게임 체인저
가장 주목받는 것은 TI2V-5B 모델이다. 5B 파라미터의 밀집 모델로 T2V와 I2V 기능을 하나의 통합 프레임워크에서 제공한다. RTX 4090에서 24GB VRAM으로 구동되며, 720P@24fps 5초 비디오를 9분 이내에 생성할 수 있다.
GGUF 포맷이 가져온 접근성 혁명
GGUF(GPT-Generated Unified Format)의 도입은 Wan 2.2의 접근성을 크게 향상시켰다.
이 바이너리 형식은 메타데이터를 내장하고 빠른 로딩/저장을 지원한다.
양자화 옵션은 다양하다:
- Q2_K: 최대 압축 (A14B 모델 5.3GB)
- Q4_K_M: 품질/압축 균형 (9.65GB)
- Q8_0: 최고 품질 (13GB)
TI2V-5B 모델의 경우 Q2_K로 1.85GB까지 압축이 가능하다. ComfyUI와의 직접적인 호환성을 제공하여 모델을 ComfyUI/models/unet
디렉토리에 배치하면 바로 사용할 수 있다.
ComfyUI 통합: 실제 사용법과 워크플로우
설치 과정의 단순화
ComfyUI에서 Wan 2.2 사용은 놀랍도록 간단하다.
최신 Development 버전으로 업데이트한 후 Workflow → Browse Templates → Video
에서 기본 템플릿을 찾을 수 있다.
필요한 모델 파일들:
ComfyUI/models/
├── diffusion_models/wan2.2_ti2v_5B_fp16.safetensors (8.5GB)
├── text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors (4.8GB)
├── vae/wan2.2_vae.safetensors
└── clip_vision/clip_vision_h.safetensors (1.4GB)
시스템 요구사항과 실제 성능
최소 사양 (TI2V-5B 기준):
- GPU: RTX 4060 Ti 16GB
- 시스템 RAM: 16GB
- 저장공간: 50GB SSD
권장 사양:
- GPU: RTX 4090 (24GB VRAM)
- 시스템 RAM: 32GB
- 저장공간: 100GB NVMe SSD
실제 벤치마크에서 RTX 4090으로 720P 비디오를 6-8분에 생성할 수 있으며, RTX 4060 Ti 16GB로는 18-25분이 소요된다고 한다.
메모리 최적화 전략
참고로 gguf 버전인 TI2V-5B 모델로 내 로컬 PC 5070Ti 16GB에서 돌려보니, 4분이 소요되었다.
768x768 사이즈인데, 9:6 비율로 해보니 영상이 깨지거나 더 안좋은 결과물이 보여 정사각형 사이즈로 만들어 보았다. 5B모델로 테스트는 괜찮지만, 14B모델에 lightX2V lora를 붙여서 사용하는 것을 추천한다.
메모리 제약이 있는 시스템을 위한 다양한 최적화 옵션:
--offload_model True
: 모델 오프로딩으로 VRAM 사용량 40-60% 감소--t5_cpu
: T5 텍스트 인코더를 CPU에서 처리- FP8 양자화: 품질 손실 최소화하면서 메모리 사용량 50% 감소
GGUF Wan 2.2 i2V 14B 모델 실행(lightx2V LoRA와 Sage Attention 노드 추가)
ComfyUI에서 Workflow → Browse Templates → Video
에서 i2V 기본 템플릿을 찾을 수 있다.

필요한 모델 파일들:
ComfyUI/models/
├── unet/wan2.2_i2v_14B_HighNoise-Q5_K_M.gguf (10.0GB)
├── unet/wan2.2_i2v_14B_LowNoise-Q5_K_M.gguf (10.0GB)
├── text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors (4.8GB)
├── vae/wan2.1_vae.safetensors
경쟁 모델들과의 성능 비교
Stable Video Diffusion 대비 우위
Wan 2.2는 SVD 대비 복잡한 모션 생성에서 확실한 우위를 보인다. SVD의 제한적인 모션에 비해 Wan 2.2는 대규모 복합 모션을 자연스럽게 처리한다. 또한 양방향 텍스트 생성 기능(중국어/영어)은 독특한 차별화 요소다.
Runway Gen-3와의 치열한 경쟁
상업적 서비스인 Runway Gen-3와 비교할 때, Wan 2.2는 오픈소스의 강점을 활용한다. Runway의 크레딧 기반 요금제(세대당 $0.50-2.00) 대비 무료 사용이 가능하며, 완전한 모델 제어와 파인튜닝이 가능하다. 품질 면에서도 모션 정확도에서 우위를 보인다고 평가받는다.
성능 벤치마크 결과
Wan-Bench 2.0에서 Wan 2.2는 주요 상업용 모델들을 능가하는 성과를 보였다.
특히 모션 부드러움, 시간적 일관성, 공간적 관계 처리에서 최상위 성능을 달성했다.
실제 사용 사례와 창작 가능성
전문가급 활용 영역
영화 제작: 프리비주얼라이제이션에서 Wan 2.2의 영화적 카메라 움직임과 조명 제어 능력이 빛을 발한다. "전문적인 트래킹 샷", "골든 아워 백라이팅", "네덜란드 앵글 틸트 관점" 같은 영화 용어에 정확히 반응한다.
광고 산업: 제품 시연과 라이프스타일 콘텐츠 제작에서 통제된 카메라 움직임과 전문적 품질이 요구되는 상황에 최적화되어 있다.
교육 콘텐츠: 과학 시뮬레이션과 역사적 재현에서 뛰어난 물리 법칙 시뮬레이션 능력을 발휘한다.
창작자들의 실제 후기
커뮤니티에서는 Wan 2.2를 "세계에서 가장 강력한 오픈소스 비디오 생성 도구"라고 평가한다. 특히 영화급 비주얼과 풍부한 텍스처를 생성하는 능력에 대해 극찬하고 있다.
하지만 5B 모델에 대해서는 비판적 의견도 있다. 일부 사용자들은 "모든 종류의 프롬프트를 시도해봤지만 기대한 품질을 주지 못하고 너무 많은 변형이 있다"고 지적했다.
커뮤니티 생태계와 발전 동향
활발한 커뮤니티 개발
GitHub에서 2.3k 스타를 받으며 활발한 개발이 이뤄지고 있다. 주목할 만한 커뮤니티 프로젝트들:
- DiffSynth-Studio: 저GPU 메모리 최적화와 FP8 양자화 지원
- WanGP by DeepBeepMeep: "GPU Poor" 버전으로 메모리 관리 강화
- Kijai's ComfyUI WanVideoWrapper: 최첨단 최적화에 초점을 맞춘 대안 구현
도전과제와 한계점
하드웨어 접근성: 커뮤니티에서 가장 큰 우려는 하드웨어 요구사항이다. 특히 5B 모델조차 "VAE가 모든 메모리를 먹어버린다"는 피드백이 있다.
생태계 호환성: Wan 2.2의 MoE 아키텍처는 기존 Wan 2.1 LoRA 생태계와 호환되지 않아 마이그레이션 결정을 어렵게 만든다.
상업적 활용과 라이선스 자유도
Apache 2.0 라이선스의 강점
Wan 2.2는 Apache 2.0 라이선스 하에 배포되어 상업적 활용에 완전히 개방되어 있다:
- 완전한 상업적 사용: 기업이 독점 소프트웨어에 포함하여 고객에게 판매 가능
- 수정 권한: 소스 코드 변경과 파생 작품 생성 허용
- 배포 자유: 복사, 수정, 배포에 제한 없음
- 특허 라이선스: 기여자로부터 명시적 특허 권한 부여
실제 상업적 적용 사례
콘텐츠 제작 스튜디오: 빠른 프로토타이핑과 제작에 활용
마케팅 에이전시: 동적 프로모션 콘텐츠 생성
게임 개발: 시네마틱 시퀀스와 트레일러 제작
교육 플랫폼: 인터랙티브 학습 자료 개발
한계점과 개선이 필요한 영역
기술적 제약사항
생성 길이: 현재 5초 표준 생성 제한
카메라 제어: 특정 카메라 방향 지시에 대한 불일치한 반응
복잡한 장면: 다중 캐릭터 상호작용에서 세밀한 디테일 요구 시 불안정
시스템 요구사항의 현실
VRAM 집약적: 최적 720P 생성에 최소 24GB 필요
생성 시간: 소비자 하드웨어에서 5초 클립당 6-9분 (lora 사용 등으로 생성 시간 단축 가능)
다중 GPU 설정: 분산 추론을 위한 복잡한 설정 필요
미래 전망과 로드맵
기술적 발전 방향
압축 기술 발전: VAE 개선을 통한 효율성 증대
해상도 확장: 향후 네이티브 1080P+ 지원 가능성
아키텍처 개선: 엣지 배포를 위한 추가 MoE 최적화
생태계 성장 전망
LoRA 훈련 지원: 커스텀 스타일 적응을 위한 기능 개발
전문 편집 도구 통합: 기존 비디오 편집 스위트와의 연계
API 개발: 자동화된 제작 파이프라인을 위한 인터페이스
투자 가치와 도입 전략
비용 효율성 분석
Wan 2.2는 제로 라이선스 비용으로 상업용 서비스 대비 엄청난 경제적 이점을 제공한다. Runway Gen-3의 구독 모델($8-76/월) 대비 무료 사용이 가능하며, 벤더 종속 없이 완전한 모델 제어가 가능하다.
단계별 도입 권장사항
단기 (6개월): 현재 하드웨어로 검증된 워크플로우 구축
중기 (1-2년): 제작 볼륨에 따른 하드웨어 확장
장기: 전체 콘텐츠 제작 파이프라인과의 통합
결론: 새로운 시대의 시작
Wan 2.2는 단순한 모델 업그레이드를 넘어서 AI 비디오 생성의 패러다임 시프트를 대표한다. 혁신적인 MoE 아키텍처는 최첨단 기술 혁신과 실용적 접근성을 성공적으로 결합했다.
하드웨어 요구사항과 생성 길이 제한 같은 한계에도 불구하고, 오픈소스 특성과 제로 라이선스 비용, 그리고 전문가급 결과물은 Wan 2.2를 광범위한 애플리케이션에서 매력적인 선택으로 만든다.
독점 시스템의 제약 없이 고품질 비디오 생성을 원하는 조직과 창작자들에게 Wan 2.2는 성능, 접근성, 가치의 전례 없는 조합을 제공하며 업계의 새로운 벤치마크를 설정하고 있다. 이는 진정으로 민주화된 AI 비디오 창작 기술의 시작을 알리는 신호탄이다.
댓글 쓰기