직접 만들고, 내 생각을 더하다
세상의 트렌드를 읽고 싶어하는 한 사람으로, 목공 DIY를 좋아하고, AI, n8n을 사용해 자동화 프로세스를 배우고 있다.

490초의 기적: Wan 2.2 gguf + LightX2V로 홈 PC에서 영화급 쇼츠 만들기

Wan 2.2 GGUF + LightX2V를 활용해 홈PC에서 490초 만에 720x480 해상도 5초 영상을 생성하는 방법과 실전 워크플로우 소개

490초의 기적: Wan 2.2 gguf + LightX2V로 홈 PC에서 영화급 쇼츠 만들기(Wan 2.2 사용법)

유튜브 쇼츠를 만들기 위해 Freepik에 7달러를 날린 후, 나는 깨달았다.
이제는 집에서도 충분히 프로급 영상을 만들 수 있는 시대가 왔다는 것을.
특히 Wan 2.2 + LightX2V로 빠르게 영상 생성이 가능해지면서, 720x480 해상도의 5초 영상을 단 490초(약 8분)만에 생성할 수 있게 되었다.
이는 기존 방식 대비 4배 이상 빠른 속도다.

Flux Krea가 바꾼 이미지 생성의 패러다임

처음 Flux Krea를 발견했을 때의 충격은 지금도 생생하다.
기존 AI 이미지 생성 도구들이 만들어내는 '티나는 AI 느낌'과는 차원이 달랐다.

Flux.1-Krea-dev-scaled-fp8 모델은 자연스러운 실사 이미지 생성에 특화되어 있다. 섬세한 디테일, 자연스러운 색감, 부드러운 빛 표현, 그리고 사실성과 예술성을 함께 살린 장면에 강하다고 한다.
피부 텍스처, 빛의 반사, 옷감의 질감까지 – 마치 실제 사진을 보는 듯한 디테일이 살아있다고 느꼈다.
특히 인물 사진에서 그 진가를 발휘한다. 포토그래퍼가 찍은 듯한 자연스러운 조명과 피사체의 생동감이 일반적인 AI 이미지와는 확연히 다르다. 그렇다고 판타지 이미지를 만들지 못할까? 이런 저런 생각에 다양한 프롬프트를 사용해 만들어 보았다. 

그냥 넘어가기 아쉬우므로, 몇 개 샘플로 보여주고자 한다.

프롬프트 – 얼음의 정령

An ethereal ice spirit emerging from a frozen lake under the pale moonlight. Her translucent skin glows softly with a bluish hue, and frost patterns form along her slender arms and shoulders. Long, flowing hair made of icy mist swirls gently around her face, partially veiling her silver eyes. Snow-covered pine trees surround the lake, their branches heavy with glistening icicles. The ground sparkles with frost crystals, while a soft wind carries swirling snowflakes through the air. The atmosphere is silent and hauntingly beautiful, with the faint sound of ice cracking beneath the surface.


프롬프트 – 스팀펑크 판다 드론

A high-detail studio photo of a small steampunk panda drone—round body with soft black-and-white fur, mechanical wings folded neatly on its back, glowing amber eyes, wearing tiny brass aviator goggles, intricate gear patterns engraved on its cheeks, seamless white background, cinematic lighting, text at the bottom: "Flight of the Gentle Giant" in ornate copperplate font with metallic shine and embossed gear motifs.


프롬프트 – 바이오메카닉 여우

Hyper-detailed portrait of a biomechanical fox with sleek orange fur interlaced with chrome plates, blue fiber-optic whiskers, and glowing teal eyes. Mechanical tail with segmented armor plating, intricate brass joints, and tiny spinning gears. The creature stands alert on a matte black seamless background, dramatic softbox lighting highlighting texture. Text below: "Wilderness Reforged" in futuristic steampunk typography with brushed steel texture and gear accents.


프롬프트 – 시계탑 고양이

Studio shot of a small clockwork cat made of polished brass and soft grey fur patches, sitting on its hind legs, long tail ending in a ticking pocket watch, ears adorned with tiny copper bells, seamless ivory background, soft warm lighting. The cat wears a leather harness with moving gears and small pressure gauges. Text beneath: "Timekeeper’s Companion" engraved into a bronze nameplate with ornate steampunk filigree.


프롬프트 – krea 블로그에 나온 실사 같은 이미지(춤추는 여성)

Dreamy scene of a woman dancing with a super long red dress made of flowers


krea 블로그에서는 위와 같이 간단한 프롬프트로 만들 수 있다고 해서, 처음에는 간단한 프롬프트만 사용해 보았는데, 좀 더 세밀하 원하는 조건을 많이 넣어도 그걸 제대로 표현해준다. 

ComfyUI에서 설정도 간단하다.
FP8 양자화 버전으로 VRAM 사용량도 줄이면서 품질은 유지할 수 있어, 내 RTX 5070Ti 16GB에서도 여유롭게 구동된다. 1024x1024 이미지를 80~90초 내외로 생성하고 있으며, 64GB RAM 덕분에 여러 작업을 동시에 처리해도 시스템이 안정적이다.

Wan 2.2와 LightX2V의 운명적 만남

Flux Krea로 만든 실사 같은 이미지를 손에 쥐고 다음 단계를 고민했다.
어떻게 이 정적인 이미지에 생명을 불어넣을 수 있을까?

답은 Wan 2.2에 있었다.
Alibaba가 2025년 7월 29일 출시한 이 오픈소스 비디오 생성 모델은 MoE(Mixture-of-Experts) 아키텍처를 도입한 혁신적 모델이다.
하지만 14B 파라미터 모델을 일반 가정용 PC에서 돌리기엔 부담스러웠다.
표준 40스텝(고노이즈 20 + 저노이즈 20) 생성에는 RTX 4090에서도 20분 이상이 걸린다고 한다. 내 RTX 5070Ti에서 양자화된 모델을 돌려보아도 전체 40스텝을 돌리면 거의 30분이 걸려서 5초 짜리 영상을 만들 수 있었다. 이렇다면 사용하기 어렵다는 결론이 들었다.

그때 발견한 것이 LightX2V Lightning LoRA다.
이 증류(distillation) 기술은 Wan 2.2의 40스텝 프로세스를 단 4-8스텝으로 압축한다.
믿기 어려운가? 나도 처음엔 의심했다. 하지만 실제로 테스트해본 결과는 충격적이었다.

490초의 마법: 실제 워크플로우와 성능

내 테스트 환경과 결과를 공유한다:

  • 하드웨어: RTX 5070Ti 16GB, 64GB RAM, NVMe SSD
  • 모델: Wan2.2-I2V-14B GGUF Q5_K_M, HighNoise와 LowNoise (각 10GB)
  • LoRA: Wan2.2-Lightning T2V 4steps-lora-rank64-Seko-V1.1, HighNoise와 LowNoise 
  • 설정: 720x480, 5초(125프레임), CFG 1.0, Euler 샘플러

얼음의 정령


스팀펑크 판다 드론


바이오메카닉 여우


시계탑 고양이

춤추는 여성


결과는 놀라웠다. 
정확히 490초만에 5초짜리 영상이 생성되었다.
물론 1080p가 아닌 720x480(720x720 포함)이라는 제약이 있지만, 유튜브 쇼츠나 인스타그램 릴스용으로는 충분하다.

워크플로우 설정의 핵심은 이렇다:

High Noise Model: 4 steps, LoRA strength 0.8, CFG 1.0
Low Noise Model: 4 steps, LoRA strength 1.0, CFG 1.0
Sampler: lcm 

특히 중요한 것은 LoRA 강도 조절이다.
고노이즈 단계에서 너무 높은 강도(1.0 이상)를 주면 모션이 단순해지고 '라이브 월페이퍼' 같은 결과물이 나온다. 반대로 0.6 이하로 내리면 생성 속도는 빨라지지만 품질이 떨어진다.

품질과 속도의 절묘한 균형점

커뮤니티에서는 Wan 2.2 Lightning LoRA에 대한 의견이 분분하다.
"모션이 죽었다", "Wan 2.1 LightX2V가 더 낫다"는 비판도 있다.

실제로 테스트해보니 일리가 있는 지적이었다.
특히 복잡한 인물 동작이나 카메라 움직임에서 Wan 2.2 Lightning은 확실히 제한적이다.
하지만 이는 사용 목적에 따라 다르게 평가될 수 있다.

빠른 프로토타이핑이 필요한 경우(커뮤니티에서 제시한 설정 중):

  • 4+4 스텝, 높은 LoRA 강도(1.5/1.2)
  • 단순한 모션, 약간의 품질 저하
  • 생성 시간: 5-8분 (RTX 5070Ti 기준)

나의 선택은 빠른 프로토타이핑에 대한 절충이었다. 4+4 스텝에 LoRA 강도 0.8/1.0으로 설정하니, 4~~7분 내외로 만족할 만한 결과물을 얻을 수 있었다. LoRA 강도를 조절해 보고 본인이 원하는 결과물을 만들어내는 조합을 찾는 것도 재미있을 것이라 생각한다.
앞으로 더 좋은 lora모델들이 나올 것이라 좀 더 빠르고 완성도 높은 동영상을 만들 날을 기대한다.
그리고, RTX 5070Ti의 16GB VRAM과 64GB 시스템 RAM 조합은 위와 같은 실험을 여유롭게 할 수 있는 환경을 제공했다는 점에서 많은 사람들이 구입해 볼 만한 로컬 PC 사용이 아닐까 싶다.

실전 활용: 쇼츠 제작 파이프라인

이제 전체 워크플로우를 정리해보자:

  1. Flux Krea로 키프레임 생성 (80초)

    • 1024x1024 고품질 실사 이미지
    • 프롬프트 엔지니어링으로 원하는 씬 구성
  2. 이미지 크롭 및 준비 (10초)

    • 720x480 (720x720) 비율로 조정
    • ComfyUI Load Image 노드로 불러오기
  3. Wan 2.2 + LightX2V 영상 생성 (490초)

    • Image-to-Video 모드 사용
    • 프롬프트로 모션 디렉션 제공
  4. 후처리 (선택사항, 120초)

    • RIFE 프레임 보간으로 부드러움 향상
    • 간단한 색보정

총 소요 시간: 약 10-12분 기존 방식(Runway Gen-3 등) 대비 비용: 0원

RTX 5070Ti와 64GB RAM 조합의 장점은 여기서 빛을 발한다.
영상 생성 중에도 다른 작업을 간단히 진행할 수 있고, 대용량 모델 로딩과 언로딩이 매우 빠르다.
특히 64GB RAM은 모델 오프로딩 시 디스크 I/O를 최소화해 전체적인 워크플로우 속도를 크게 향상시킨다.

한계와 극복 방법

물론 한계도 명확하다.

해상도 제한: 720p가 최대치다. 1080p를 원한다면 업스케일링이 필요하다(가능하더라도 시간이 너무 많이 걸린다).
모션 단순화: Lightning LoRA의 태생적 한계로 복잡한 동작은 어렵다.
VRAM 요구사항: 최소 16GB는 필요하다. 8GB 카드로는 불가능하다.

하지만 이런 한계들은 창의적인 방법으로 극복 가능하다:

  • 다중 클립 연결: 5초 클립을 여러 개 만들어 편집으로 연결
  • 스타일 특화: 슬로우 모션, 타임랩스 등 단순 모션이 어울리는 장르 선택
  • 하이브리드 접근: 중요 씬만 Wan 2.2로, 나머지는 더 빠른 도구 활용

RTX 5070Ti의 16GB VRAM은 이런 제약 속에서도 충분한 여유를 제공한다.
특히 GGUF Q5_K_M 양자화 모델을 사용하면 VRAM 사용량이 12GB 이하로 유지되어, 문제없이 사용할 수 있다.

미래는 이미 시작되었다

6개월 전만 해도 상상할 수 없었던 일이다.
집에서, 내 PC로, 무료 오픈소스 도구만으로 프로급 영상을 만들 수 있다니.

Wan 2.2와 LightX2V의 조합은 단순한 기술적 진보를 넘어선다. 이는 콘텐츠 창작의 민주화, 진입 장벽의 붕괴를 의미한다. 이제 아이디어만 있다면 누구나 영상 크리에이터가 될 수 있다.

물론 아직 갈 길이 멀다.
더 긴 영상, 더 복잡한 스토리텔링, 일관된 캐릭터 유지 등 해결해야 할 과제가 산적해 있다.
하지만 현재의 발전 속도를 보면, 머지않아 홈 PC에서 단편 영화를 만드는 날이 올 것이다.

지금 당장 시작하라.
Flux Krea로 이미지를 만들고, Wan 2.2 + LightX2V로 움직임을 더하라.
490초의 기다림이 당신의 창작 세계를 완전히 바꿀 것이다.

기술이 발전하면서 더 이상 "장비 탓"을 할 수 없는 시대가 왔다.
RTX 5070Ti와 64GB RAM이면 충분하다.
이제 남은 것은 오직 상상력과 실행력뿐이다.
당신의 첫 AI 영상은 무엇이 될 것인가?

댓글 쓰기