직접 만들고, 내 생각을 더하다: Seedance 2.0, 왜 한 달 동안 사라졌을까? — 액션 영상 제작 파이프라인 + 플랫폼 비용 완전 비교

"영화 속 그 배우가 내 스토리로 움직인다면?" 🎬

당신도 알꺼다. Seedance 2.0이 처음 공개됐을 때, 커뮤니티는 완전히 뒤집어졌다.
실제 영화 배우들이 그대로 등장해서 사용자가 직접 만든 스토리로 움직이는 짧은 영상들이 SNS에 쏟아졌기 때문이다. 퀄리티가 너무 좋아서 "이거 진짜야?"라는 반응이 넘쳐났고~ 당연히 대박이 났다. 근데 그게 문제였지.
배우 초상권, 영화사 저작권에 대한 경고장이 날아오기 시작했고, ByteDance는 결국 한 달간 서비스를 정비했다. 그리고 재출시된 버전에는 인물 얼굴을 감지해서 생성을 차단하는 기능이 추가됐지. 덕분에 지금은 오리지널 캐릭터 기반으로 써야 하는 도구가 됐다.

사실 그게 나쁜 방향은 아니라고 본다. 직접 써보니까 오리지널 캐릭터 방식이 오히려 더 자유롭고, 활용도가 훨씬 높기 때문이다.
오늘은 플랫폼 비교, 실전 프롬프트, 그리고 진짜 아무도 정리 안 해준 비용 비교까지 한방에 정리해 보도록 한다. 💪

📋 이 글에서 다루는 내용

Seedance 2.0이 기존 AI 영상과 다른 이유
출시 전 논란 — 저작권 정비와 인물 감지 기능 추가
액션 영상 제작 4단계 파이프라인
플랫폼별 접근 방법 비교 (Jimeng · Dreamina · fal.ai · Replicate)
즉시 복사해서 쓰는 실전 프롬프트 3종
Dreamina vs ComfyUI 과금 비교 — 진짜 어디가 이득?

🔥 Seedance 2.0이 기존 AI 영상과 다른 이유는?

한줄 요약부터: 기존 도구들이 '그림을 움직이는 수준'이었다면, Seedance 2.0은 처음부터 영화 촬영 현장의 언어로 설계됐다. 배우 얼굴을 그대로 재현할 만큼 정밀한 이유가 바로 이 구조에 있다.

ByteDance Seed 팀이 공개한 이 모델의 핵심은 통합 멀티모달 아키텍처다. 텍스트, 이미지, 비디오, 오디오 — 4가지를 동시에 받아서 카메라 동선, 배우 동작, 사운드를 함께 계획한다. 기존 도구처럼 "이미지 넣으면 움직여줘" 수준이 아니고, 에셋마다 역할을 분리해서 처리하는 거다.

🎙 입력 용량(사이트별 상이)

이미지 최대 9장 + 비디오 3개 + 오디오 3개 + 텍스트 동시 입력

⚡ 물리 엔진

관절 왜곡, 발 슬라이딩, 의상 관통 — 이전 세대의 3대 실패 모드를 정면 돌파

🎵 사운드 동기화

스테레오 + 멀티트랙 오디오 동시 생성, 립싱크까지 지원

⚖️ 출시 전 논란 — 저작권 정비와 인물 감지 기능 추가

Seedance 2.0이 처음 공개됐을 때의 반응은 단순한 "와, 신기하다" 수준이 아니었다.
실제 영화 배우가 그대로 등장해서 사용자가 만든 스토리로 움직이는 영상이 만들어졌기 때문이다. SNS에서 이런 영상들이 폭발적으로 퍼지며 진짜 히트를 쳤다. 퀄리티가 워낙 좋아서 처음 보는 사람들은 "이거 어떻게 만든 거야?"라는 반응이 쏟아졌기 때문에 많은 사람들이 알꺼다.

📅 Seedance 2.0 출시 타임라인

1차 공개

영화 배우 얼굴 그대로 재현 가능. 사용자가 만든 "배우 주연 AI 영상"이 SNS에서 폭발적 반응. 실제 배우·영화사 이름을 단 영상이 수만 회 공유되며 화제.

약 1개월

초상권·저작권 침해 이슈로 ByteDance가 서비스 전면 정비에 돌입. 이 기간 동안 글로벌 배포가 지연됨.

현재 버전

인물 얼굴 자동 감지 기능 추가. 실존 인물 또는 실사 인물로 판단되는 이미지를 레퍼런스로 넣으면 영상 생성이 차단됨. 오리지널 캐릭터 기반으로만 정상 작동.

이 변화를 두고 "기능이 제한됐다"고 아쉬워하는 사람들도 있다.
근데 나는 오히려 이게 더 나은 방향이라고 생각한다. 다음과 같은 이유 때문이다.

💡 오리지널 캐릭터가 오히려 더 유리한 이유

법적 리스크 제로 — 실존 배우 재현은 퍼블리시티권·초상권 침해. 오리지널은 신경 쓸 필요 없다.
품질 역설 — 실존 인물을 정확히 재현하려 할수록 '불쾌한 골짜기(uncanny valley)' 효과가 커진다. 오리지널 캐릭터는 허용 오차가 넓어서 같은 아티팩트도 덜 거슬린다.
수익화 가능 — 플랫폼 업로드, 광고 수익, 클라이언트 납품까지 — 저작권 걱정 없이 쓸 수 있다.
나만의 IP 구축 — 반복해서 등장하는 오리지널 캐릭터는 채널 브랜딩 자산이 된다.

📐 액션 영상 제작 4단계 파이프라인

"한 번에 완벽한 영상을 만들려는 시도는 반드시 실패해." 직접 수십 번 돌려보면서 깨달은 진리다.
단계를 나눠야 성공 확률이 올라간다.

Step 1. 시나리오 설계 — 촬영 콘티처럼 써라

"역동적인 전사가 멋있게 싸운다"는 프롬프트는 실패한다.
Seedance 2.0은 문학적 묘사가 아닌 논리적 함수로 작동하기에, 타임코드로 샷을 나눠서 쓰는 게 핵심이다.

      [0-5s] 와이드 전신, 정면, 카메라 고정. 강렬한 포즈로 시작, 핵심 동작 2개

      [5-10s] 중간 샷, 천천히 dolly-in. 냉정→도발 표정 변화

      [10-15s] 와이드, 측면 pan. 무기 들어올리며 정지 포즈

Step 2. 이미지 레퍼런스 — 드리프트 방지 4종 세트

레퍼런스 이미지 품질이 결과의 80%를 결정한다. 캐릭터 이미지를 하나만 넣으면 샷마다 얼굴이 달라지는 '드리프트' 현상이 생긴다. 해법은 역할을 분리하는 거다.

정면 이미지 → 얼굴 잠금용
측면 이미지 → 의상 재질 확인용
전신 이미지 → 체형 고정용
클로즈업 이미지 → 표정·악세서리 디테일용

Step 3. 영상 생성 — 6단계 프롬프트 공식

Subject → Action → Environment → Camera → Lighting → Constraints 순서로 써라. 300~1000단어가 최적 길이라고 한다. 이보다 짧으면 모델이 멋대로 채우고, 길면 지시가 충돌할 수 있다.

Step 4. 대사 & 사운드 — 네이티브 오디오의 진짜 실력

Seedance 2.0의 숨겨진 강점이 바로 여기다.
영상과 오디오를 단일 패스로 동시 생성한다는 것!
별도 편집 없이 대사·효과음·배경음악이 영상에 딱 맞게 붙어 나온다.

자동 생성되는 3가지 오디오 레이어
🎙 대사(Dialogue) — 큰따옴표로 감싸면 립싱크 자동 적용
🎵 효과음(SFX) — "boots on wet cobblestone"처럼 재질+표면 묘사하면 정확도 ↑
🌊 배경음(Ambient) — 장면 묘사만 해도 맥락에 맞는 환경음 자동 생성

🇰🇷 한국어🇺🇸 English🇨🇳 中文🇯🇵 日本語+ 4개 이상

✅ 립싱크 성공률 높이는 3가지 법칙

5~10단어 이내로 짧게 — 8초 넘어가면 입 모양이 뭉개지기 시작한다
정면 또는 3/4 각도 클로즈업이 측면보다 훨씬 정확하다
특정 목소리가 필요하면? → 립싱크는 Seedance가 잡고, 오디오 트랙만 교체하는 2패스 방식 사용

⚠️ 배경 음악이 자동으로 들어오는 게 싫다면 프롬프트 끝에 - No music 필수

🌐 어디서 쓸 수 있어? 플랫폼별 접근 방법 완전 비교

Seedance 2.0을 쓸 수 있는 플랫폼이 여러 개인데, 그냥 아무 데나 쓰면 손해다 — 목적에 따라 골라야 한다. 내가 직접 조사한 결과를 정리해 봤다.

플랫폼	난이도	과금 방식	특징	추천 대상
🟥 Jimeng	⭐ 쉬움	크레딧제	ByteDance 직계 서비스. 중국어 UI지만 최신 모델 가장 빠르게 반영. Seedance 최초 공개 플랫폼	빠른 실험
🟩 Dreamina (드리미나)	⭐ 쉬움	크레딧제	Jimeng 글로벌 버전. 영어/한국어 UI. 동일 퀄리티 기준 가장 저렴한 단가. 대량 생산에 최적	💰 비용 최적화
🟧 fal.ai	⭐⭐ 중간	API 종량제	API 형태로 제공. n8n, ComfyUI, Python과 연동 가능. 자동화 파이프라인 구축에 핵심. 초당 과금 방식	🔧 n8n 자동화
🟦 Replicate	⭐⭐ 중간	API 종량제	오픈소스 모델 허브. 커스텀 LoRA, 파인튜닝된 버전 접근 가능. 개발자 친화적 문서 제공	🧪 커스터마이징

💡 이런 상황이라면 이 플랫폼을!

빠르게 실험해보고 싶다면 → Jimeng (최신 모델 가장 빠름), 중국 알리페이로 결제!
쇼츠 대량 생산 / 수익화 초반 → Dreamina (글로벌 단가 최저)
n8n 자동화 워크플로우 구축 → fal.ai API
파인튜닝된 특화 모델 써보고 싶다면 → Replicate

📝 즉시 복사해서 쓰는 실전 프롬프트 3종

이론만 있으면 소용없다.
실제로 쓸 수 있는 프롬프트를 그대로 공개한다(영문이나 중문으로 바꾸면 더 잘먹힌다고 한다).
끝에 붙는 네거티브 프롬프트는 절대 빠뜨리면 안 된다 — 워터마크, 텍스트 오버레이 방지에 필수다.

✅ 프롬프트 1: 10초 K-pop 전사 퍼포먼스

    [Image1]의 여성 전사 캐릭터가 [Video1]의 안무를 정확한 리듬으로 춤.

    [Audio1]의 비트에 맞춰 동작 타이밍 싱크.

    전신 와이드 샷. 카메라는 부드러운 dolly-in만 사용, 흔들림 없음.

    콘서트 스타일 조명, 강한 림라이트.

    발 바닥 고정, 관절 왜곡 없음, 손가락 추가 생성 없음.

    - No music, No logo, no text on screen.

✅ 프롬프트 2: 15초 멀티샷 MV 티저

    15초, 3개 샷으로 구성. 캐릭터는 [Image1]. 안무는 [Video1].

    [0-5s] 와이드 전신, 정면, 고정. 강렬한 포즈 → 핵심 동작 2개.

    [5-10s] 중간 샷, 천천히 dolly-in. 냉정→도발 표정 변화.

    [10-15s] 와이드, 측면 pan. 무기 들어올리며 정지 포즈.

    전환은 컷 2번만. 손가락/의상 관통/관절 왜곡 없음.

    - No music, No logo, no text on screen.

✅ 프롬프트 3: 클로즈업 립싱크

    클로즈업 4초. 전사 캐릭터가 카메라를 보며 말한다:

    "지금부터 시작이야."

    입모양이 대사와 정확히 일치. BGM은 약하게. 얼굴 변형 없음.

    - No logo, no text on screen.

⚠️ 생성 전 반드시 확인할 6대 실패 모드

레퍼런스 충돌 — 이미지·비디오·텍스트가 같은 세계를 가리키는가?
동작 과다 — 15초에 너무 많은 동작을 넣지 않았는가?
워터마크 혼입 — 레퍼런스 영상에 자막/로고가 있는가?
고주파 관절 구간 — 손·발목 클로즈업이 있는가?
오디오 동기화 — 먼저 무음으로 테스트했는가?
다중 인물 — 1인 안정화 후 군무 확장 순서를 지켰는가?

💰 Dreamina vs ComfyUI — 진짜 어디가 더 이득일까?

이걸 모르고 쓰면 손해다. 같은 Seedance 2.0 퀄리티로 15초 영상을 뽑는다고 가정했을 때, 플랫폼에 따라 거의 2배 차이가 난다. 직접 계산해 봤다.

항목	드리미나	ComfyUI
총 결제 금액	46,909원	37,000원
생성 가능 횟수	15.23회	7.71회
1회 생성 비용	약 3,080원	약 4,800원
비용 차이	기준	+1,720원
상대 가격	기준 (100%)	약 1.56배 비쌈

🔥 한 줄 결론

👉 드리미나가 약 44% 더 저렴 = ComfyUI 방식은 같은 돈으로 영상을 반밖에 못 뽑아

같은 돈으로 드리미나는 15개 영상 생성 → ComfyUI는 7~8개 영상 생성
📌 대량 생산 / 쇼츠 실험 / 수익화 초반이라면 드리미나가 압도적으로 유리

📊 진짜 중요한 해석 (현실 기준)

퀄리티가 동일하다면 선택 기준은 딱 하나다 — "얼마나 많이 뽑느냐". 영상 하나 만들고 끝낼 거라면 플랫폼 차이는 크지 않다. 근데 쇼츠 채널 운영, 클라이언트 납품, 수익화 테스트처럼 반복 생성이 필요한 상황이라면 드리미나를 쓰지 않을 이유가 없어 보인다.

반대로 n8n이나 Python과 연동해서 자동화 파이프라인을 구축하거나, 파인튜닝 모델을 써야 하는 상황이라면 fal.ai나 Replicate의 API 방식이 맞다. 목적이 다를 뿐, 틀린 선택은 없다고 본다.

🎬 마무리 — AI 디렉터의 시대가 왔다

Seedance 2.0이 요구하는 건 기술 지식이 아니라 연출 능력이다. 어떤 샷에서 어떤 감정을 전달할 건지, 카메라가 어디서 어디로 이동할 건지 — 이건 AI가 대신해 줄 수 없는 인간의 영역이다.

도구가 강력해질수록 그 도구를 다루는 사람의 안목이 더 중요해진다는 걸 새삼느꼈다.
이 글에서 소개한 4단계 파이프라인을 실제로 해보고, 프롬프트를 복사해서 바로 써봐라.
처음엔 어색하더라도 5번쯤 반복하면 감이 오기 시작할 거다. 💪

시나리오를 잘 짜서 완성된 동영상을 잘 만들어 내길 바란다. 비용이 비싸다!

❓ FAQ — 자주 묻는 질문

Q. 음성 생성이 진짜 돼? 별도 TTS 도구가 필요해?

A. 필요 없다! Seedance 2.0은 영상과 음성을 단일 패스로 동시에 생성하기 때문에. 대사를 큰따옴표로 감싸서 프롬프트에 넣으면 한국어·영어·중국어·일본어 등 8개 이상 언어 립싱크가 자동으로 붙어 나온다. 다만 특정 인물의 목소리나 브랜드 보이스가 필요하다면 Seedance가 립싱크 타이밍을 잡은 후 오디오 트랙만 교체하는 2패스 방식을 쓰면 된다.
Tip) 실제 한글로 말하도록 하려면 영문으로 발음기호 형태로 표시하고 한국어로 대사를 해야한다고 명시하면 잘 먹힌다고 한다.

Q. 실존 배우 이미지를 넣으면 왜 생성이 안 돼?

Q. Seedance 2.0을 무료로 써볼 수 있어?

A. Jimeng과 Dreamina 모두 가입 시 무료 크레딧을 제공하는데, Seedance 2.0을 사용하려면 유료 가입을 해야 한다. Dreamina의 2만원대 요금제로 테스트해보는 방법을 추천한다.

Q. N100 미니 PC에서도 돌릴 수 있어?

A. Seedance 2.0 자체는 클라우드 기반이라 로컬 사양 상관없다. 브라우저만 있으면 된다. fal.ai API를 n8n과 연동할 때도 N100으로 충분하다.

Q. 립싱크가 잘 안 돼. 어떻게 해?

A. 대사는 반드시 큰따옴표로 감싸야 한다. 그리고 대사를 먼저 무음 클립으로 생성해서 입 모양만 확인 → 이후 오디오 합성 순서로 진행하면 훨씬 안정적이라고 한다.

Seedance 2.0, 왜 한 달 동안 사라졌을까? — 액션 영상 제작 파이프라인 + 플랫폼 비용 완전 비교