구글 나노 바나나로 드디어 해결한 AI 일관성 이미지 생성의 모든 것: ComfyUI로 15초 영상 스토리까지 만들어본 실전 후기
"AI로 만든 이미지인데 왜 매번 얼굴이 달라지지?"
지난 몇달간 내가 가장 많이 고민한 질문이다.
ComfyUI로 아무리 멋진 이미지를 생성해도, 다음 장면에서는 완전히 다른 사람이 되어버리는 문제. 이걸 해결하려고 수십 가지 모델을 테스트하고, 프롬프트를 수백 번 수정했지만 결과는 늘 실망스러웠다. 그런데 드디어, 구글 나노 바나나(Google Nano Banana)가 나오고 나서 모든 게 바뀌었다.
많은 사람들이 구글 나노 바나나에 열광하는 진짜 이유
솔직히 처음엔 이름 때문에 무시했다. '나노 바나나'라니, 장난하나 싶었기 때문이다. 그런데 실제 사람들의 사용기를 보니... 와, 이건 정말 게임 체인저더라.
지난주 금요일, 이제는 나노 바나나를 사용해 영상을 제작해 볼 수 있겠다 싶었다. "같은 모델이 다양한 포즈와 배경에서 나오는 15초짜리 브랜드 영상"을 만들어보기로 했다.
어떻게 가능했을까? 지금부터 제가 실제로 작업한 과정을 단계별로 공개한다.
Step 1: Claude로 스토리 프롬프트 만들고 ComfyUI에서 기본 이미지 생성하기 (총 15분, 한장당 3분)
가장 중요한 첫 단계! 먼저 어떤 스토리를 전달할지 정해야 한다. 나는 "평범한 직장인이 퇴근 후 자신만의 열정을 찾아가는 하루"라는 스토리를 선택했다.
Claude로 완벽한 프롬프트 생성하기
여기서 꿀팁! Claude(또는 ChatGPT)에게 스토리를 설명하고 ComfyUI용 프롬프트를 만들어달라고 하면 정말 효과적이다.
내가 Claude에게 입력한 내용:
"직장인이 하루를 보내는 5장면 스토리를 만들어줘:
1. 아침 출근
2. 회사에서 일하는 모습
3. 점심시간 휴식
4. 퇴근 후 취미활동
5. 저녁 만족스러운 표정
각 장면마다 ComfyUI Flux.1 Krea용 상세 프롬프트를 작성해줘"
Claude가 생성한 프롬프트 예시:
장면 1 - 아침 출근:
"Korean woman, 28 years old, business casual outfit,
navy blazer, white blouse, walking to office building,
morning golden hour lighting, confident expression,
holding coffee cup, city background, photorealistic, 8k"
장면 2 - 회사 업무:
"Same Korean woman, sitting at modern office desk,
focused expression, typing on laptop, natural office lighting,
professional atmosphere, clean workspace, indoor plants visible"
장면 3 - 점심 휴식:
"Same Korean woman, relaxed pose, eating lunch at cafe,
casual smile, smartphone in hand, bright midday lighting,
window seat with city view"
장면 4 - 취미 활동:
"Same Korean woman, changed to casual wear, painting at easel,
concentrated happy expression, art studio setting,
warm evening light, colorful paint palette visible"
장면 5 - 만족스러운 저녁:
"Same Korean woman, content smile, holding finished artwork,
cozy home environment, soft warm lighting,
sense of accomplishment in expression"
ComfyUI에서 실제 생성하기
이제 이 프롬프트들을 ComfyUI에 입력한다. 여기서 중요한 건 모델 선택이다.
보통은 동일한 모델로 생성을 하면, 거의 비슷한 이미지의 여성을 생성하는데, 가끔 일관성이 없는 이미지로 만들기도 한다. 그래서, 좀 더 구체적인 프롬프트를 사용하는 것이 좋다. 이왕이면 악세사리를 착용하도록 해서 이미지 일관성을 눈치채지 못하게 하기도 했다.
내가 테스트해본 결과:
- Flux.1 Krea: 실사 느낌, 전문적인 이미지에 최적
- Qwen Image: 감성적인 스토리에 적합, AI 이미지라는 특유의 질감
이번엔 감성적 스토리+실사 느낌을 원해서 Qwen Image로 생성후 Flux.1 Krea로 디테일을 살리는 방향으로 선택했다.
첫 생성의 함정과 해결
처음 생성했을 때 문제점:
- 5장의 이미지가 모두 다른 사람처럼 보일때가 많이 있음
- 얼굴 특징이 일관되지 않음
- 체형과 헤어스타일도 제각각
"아, 역시 AI의 한계인가..." 싶었다. 하지만 이제 여기서 포기하면 안된다!
Step 2: Google AI Studio '나노 바나나'로 일관성 확보 및 스토리 변형 (5분, 한장당 1분)
여기서 구글 나노 바나나의 진가가 발휘된다.
Google AI Studio에서 나노 바나나를 실행하고, Step 1에서 만든 이미지 한장을 업로드했다.
나노 바나나의 마법 같은 Character Consistency 기능
기준 캐릭터 설정:
- 가장 마음에 드는 이미지 1장을 업로드
- 나노 바나나가 자동으로 얼굴 특징 분석하여 제시한 프롬프트에 따라 변경
스토리에 맞는 디테일 변형
이제 각 장면에 맞게 이미지를 변형한다.
AI 일관성 이미지 생성의 핵심이 바로 여기!
장면 1 → 장면 2 변형:
- 배경: 거리 → 사무실
- 의상: 그대로 유지 (일관성)
- 표정: 자신감 → 집중
- 소품: 커피 → 노트북
구글 AI 스튜디오에 있는 나노 바나나에 배경을 어떻게 바꾸고, 소품은 어떻게 바꿀지 말하고 의상은 그대로 유지하도록 하라고 한 후 이미지를 바꿔달라고 하면 된다.
장면 3 → 장면 4 변형 (큰 변화):
- 의상: 정장 → 캐주얼 (자연스러운 전환)
- 배경: 카페 → 작업실
- 활동: 식사 → 그림 그리기
- 표정: 휴식 → 몰입
놀라운 건, 이렇게 큰 변화를 줘도 같은 인물임이 명확히 보인다는 거다!
세밀한 액세서리와 소품 추가
스토리를 더 풍부하게 만들기 위해 디테일을 추가할 수 있다:
장면별 추가 요소:
- 장면 1: 회사 ID 카드, 시계
- 장면 2: 안경 착용 (업무 집중감)
- 장면 3: 귀걸이 (점심시간 여유)
- 장면 4: 앞치마, 팔찌
- 장면 5: 목걸이 (개인 시간의 자유로움)
이 모든 변화에도 구글 나노 바나나 덕분에 인물의 일관성은 완벽하게 유지된다.
Step 3: Wan2.2로 15초 영상 제작 - AI 영상 제작의 완성 (10분)
이제 마지막 단계! 완성된 이미지들을 Wan2.2로 영상으로 만들 차례다.
Wan2.2 최적 설정값 공개
수많은 시행착오 끝에 찾은 설정값을 공유합니다:
기본 설정:
- Steps: 4-8 (lightx2v를 사용해 4스텝이나 8스텝으로 단순화)
- CFG: 1.0-3.5
- 해상도: 1280×720 (16:9) 또는 540×960 (9:16)
- 프레임 수: 81프레임 (약 5초, 최적의 결과물이 생성됨)
2단계 샘플링 프로세스:
- 1단계: 고노이즈 모델로 초기 생성 (KSamplerAdvanced)
- 2단계: 저노이즈 모델로 디테일 보완 (두 번째 KSamplerAdvanced)
- 시작 이미지와 끝 이미지를 업로드
- WanFirstLastFrameToVideo 노드가 두 이미지 사이를 보간
- 복잡한 카메라 움직임이나 장면 전환은 실제로 지원되지 않음
카메라 움직임으로 생동감 더하기
정적인 이미지를 동적으로 만드는 비법: 5초 길이의 영상으로 만들어야 하기 때문에 장면 변환이 부자연스러울 때가 있음. 그래서, 실제 영상 제작시에는 나노 바나나를 사용해 장면 1의 5초 후 끝장면을 추가로 생성해 주고 첫 장면과 마지막 장면을 연결하는 영상을 생성하는 것이 바람직하다.
장면 1: Slow push-in (인물에게 다가가기)
장면 2: Gentle pan (업무 환경 보여주기)
장면 3: Static → slight zoom out (휴식의 여유)
장면 4: Dynamic tracking (붓질 따라가기)
장면 5: Pull back slowly (전체 그림 reveal)
실전 팁: 3개월 삽질로 얻은 핵심 노하우
1. Claude 프롬프트 작성의 정석
효과적인 Claude 활용법:
"[스토리 컨셉] + [타겟 감정] + [필요 장면 수] +
[사용할 AI 모델명] + [원하는 스타일]"
이 구조로 요청하면 바로 사용 가능한 프롬프트를 받을 수 있다.
2. 나노 바나나 워크플로우 템플릿
내가 생각한 워크플로우:
- Base Character 생성 (1장)
- 스토리보드 순서대로 변형
- 일관성 체크 (자동)
- 미세 조정
- 최종 Export
이 순서를 지키면 실패 확률이 90% 감소할 것이다.
3. 렌더링 시간 단축 꿀팁
ComfyUI:
- 테스트는 512x512
- (쇼츠를 제작한다는 가정) 나노 바나나 입력용은 1280×720
- 최종본은 필요시 업스케일 노드 적용
Wan2.2:
- Draft mode로 미리보기
- 만족하면 High Quality 렌더
이렇게 하면 4시간 작업이 1시간으로 단축될 것이다.
실제 결과물 평가
"이게 정말 AI로 만든 건가? 실제 모델을 여러 날 촬영한 것 같은데..."
나노 바나나 결과물에 대한 첫 반응이다. 특히 모든 장면에서 완벽한 인물 일관성에 감탄했다.
투자 대비 수익 (ROI)
기존 방식 (실제 촬영):
- 비용: 150만원
- 시간: 1일
- 인력: 4명 (모델, 촬영팀, 편집팀)
AI 방식 (나노 바나나 활용):
- 비용: 10만원 (주로 내 시간비)
- 시간: 1시간
- 인력: 1명 (나!)
무려 93% 비용 절감과 96% 시간 단축!
직접 제작 가능한 프로젝트들
이 작업 후에 이제는 SNS에 필요한 동영상 제작이 가능하다는 판단이 들었다:
- 온라인 교육 콘텐츠
- SNS 광고 영상
- 제품 스토리텔링 영상
구글 나노 바나나의 AI 일관성 이미지 생성 기술과 Wan 2.2와 같은 동영상 생성 기술 덕분에 앞으로 AI 영상을 쉽게 작성할 수 있을 것이라 생각한다.
흔한 실수와 해결 방법
실수 1: 한 번에 너무 많은 변화
처음엔 장면마다 완전히 다른 설정을 했더니 일관성이 깨졌다.
해결: 한 번에 2-3개 요소만 변경
실수 2: Character DNA 설정 과다
모든 값을 100%로 설정했더니 로봇 같은 느낌이...
해결: 85-95% 범위 유지, Expression은 70%
실수 3: 스토리 없는 이미지 나열
그냥 예쁜 이미지만 연결했더니 심심한 영상이 됐다.
해결: Claude로 먼저 스토리 구조 잡기
더 나아가기: 고급 기법들
Multi-Character 일관성
최근엔 2-3명이 동시에 나오는 영상도 만들어 보려고 한다.
나노 바나나를 사용하면 이것도 충분히 가능하리라고 본다.
시간대별 변화 표현
같은 인물의 아침-점심-저녁 변화를 자연스럽게 표현하는 것도 가능해졌다.
조명과 피부톤을 미세하게 조정하면 된다(프롬프트만 넣으면 가능하다).
감정 곡선 만들기
스토리에 감정 변화를 넣으면 훨씬 몰입도가 높아진다.
인물의 일관성은 유지하면서, 표정의 변화만 줄 수도 있다는 걸 알 수 있었다.
마무리: AI 영상 제작의 새로운 시대
6개월 전만 해도 "AI로는 일관된 스토리 영상을 만들 수 없다"고 믿었다.
하지만 구글 나노 바나나를 중심으로 ComfyUI와 Wan2.2를 연결하니, 이제는 마음먹은 대로 뭐든 만들 수 있게 됐다.
가장 놀라운 건, 이 모든 게 단 1시간이면 가능하다는 것이다. 물론 처음엔 더 걸릴 수 있지만, 한 번 워크플로우를 익히면 정말 빨라질 것이다.
여러분도 꼭 도전해보자!
처음엔 어려워 보여도, 이 글의 단계를 따라하면 충분히 만들 수 있다. 😊
댓글 쓰기