Stable Audio 3는 2026년 5월 Stability AI가 공개한 오픈 웨이트 음악 생성 모델이야. 텍스트 프롬프트만 넣으면 최대 6분짜리 스테레오 음악이 나와. ComfyUI에 Day-0로 지원돼서 내 PC에서 바로 돌릴 수 있고, 완전 라이선스 데이터로 학습해서 상업적 사용까지 가능해. 한마디로 저작권 걱정 없는 AI 작곡가인 셈이지. 🎵
AI한테 "잔잔한 로파이 힙합 한 곡 만들어줘"라고 했더니 진짜 2분짜리 완성 트랙이 툭 튀어나온다면 믿겠어? 🎧
지금까지 AI 음악은 좀 애매했어. 47초짜리 짧은 샘플이거나, 어디서 가져온 데이터로 학습했는지 몰라서 상업적으로 쓰기 찜찜했거든. 그런데 이번에 나온 Stable Audio 3는 그 두 가지를 한 방에 해결했어. 길이도 늘었고, 출처도 깨끗해. 게다가 ComfyUI에서 곧바로 돌아가니까, GPU 달린 내 PC만 있으면 작곡가 한 명을 통째로 들인 셈이야. 오늘은 이 녀석으로 음악을 어떻게 뽑는지, 처음부터 끝까지 같이 따라가 보자.
Stable Audio 3가 대체 뭐야? 🤔
Stable Audio 3는 텍스트를 음악·효과음으로 바꿔주는 잠재 확산(Latent Diffusion) 모델이야. 장르, 분위기, 악기, 템포를 글로 설명하면 거기에 맞는 44.1kHz 스테레오 오디오를 만들어줘. 이미지 생성이랑 원리가 거의 똑같다고 보면 돼. 프롬프트 → 오디오, 이 흐름이지.
중요한 건 이게 한 개짜리 모델이 아니라 4종 패밀리라는 거야. 내 PC 사양이랑 만들 음악 길이에 맞춰서 골라 쓰면 돼.
| 모델 | 최대 길이 | 실행 환경 | 용도 |
|---|---|---|---|
| Small SFX | 약 2분 | CPU 가능 | 효과음·짧은 앰비언스 |
| Small Music | 약 2분 | CPU 가능 | 짧은 음악 루프 |
| Medium ⭐ | 약 6분 20초 | GPU 권장 | 구조 있는 완성곡 |
| Large | 약 6분 이상 | API 전용 | 최고 음악성(자체호스팅 X) |
👉 우리처럼 집 PC에서 음악을 제대로 만들 거면 Medium이 정답이야. Small은 CPU만으로도 돌지만 길이랑 완성도에서 아쉽거든.
왜 지금 Stable Audio 3에 주목해야 할까? 🚀
이유는 딱 두 가지야. 길이랑 라이선스.
- 길이가 확 늘었어. 예전 Stable Audio Open은 47초, Open Small은 11초가 한계였어. 근데 3.0은 Small이 2분, Medium은 6분을 넘겨. 인트로–전개–아웃트로까지 들어간 곡 한 곡 통째가 나온다는 뜻이야.
- 학습 데이터가 깨끗해. Stable Audio 3는 전량 라이선스 받은 데이터로만 학습했어. Stability AI가 무려 127만 개가 넘는 오디오의 출처를 공개했을 정도야. 덕분에 커뮤니티 라이선스 안에서 결과물을 내 것으로 갖고 상업적으로 쓸 수 있어 (단, 연 매출 100만 달러 넘는 회사는 엔터프라이즈 라이선스 별도).
ComfyUI에서 어떻게 시작해? 🛠️
좋은 소식. Stable Audio 3는 ComfyUI에 Day-0 지원으로 들어왔어. 별도 커스텀 노드 떡칠 없이 공식 템플릿으로 끝나. 순서는 이래.
- ComfyUI 업데이트 — 0.22 버전 이상으로 올려야 해. 안 그러면 노드가 안 보여.
- 템플릿 열기 — 사이드바 → Templates → Audio → "Stable Audio 3.0" 선택.
- 모델 다운로드 — 워크플로 열면 빠진 모델 링크를 알아서 띄워줘. 로컬이면 직접 받아도 돼.
- 폴더 배치 — 체크포인트는
models/checkpoints/, 텍스트 인코더는models/text_encoders/. - 실행 — 프롬프트 쓰고, 길이(초) 정하고, Ctrl+Enter. 결과물은
output/audio/에 저장돼.
음악 프롬프트는 어떻게 써야 잘 나와? ✍️
이게 핵심이야. Stable Audio 3는 구조화된 프롬프트를 좋아해. 공식 가이드가 권하는 뼈대는 이래.
- TrackType — Music / Instrument / SFX 중 하나로 시작 (예:
TrackType: Music) - VocalType — 보통
Instrumental로 두면 더 깔끔하게 나와 - Genre — 장르 지정. 여러 개 섞어도 돼 (예: Funk + Jazz)
- 악기·분위기 — "mellow electric piano", "soft vinyl crackle"처럼 구체적으로
- BPM·길이 — 템포와 초 단위 길이를 명시 (예: BPM 75, 150초)
실제 예시 두 개 보여줄게. 그대로 복붙해도 잘 나오는 검증된 프롬프트야. 각 프롬프트 밑에서 결과 음악도 바로 들어봐 👇
// 🎹 잔잔한 로파이
Lo-fi hip-hop chill track with mellow electric
piano, soft vinyl crackle, subtle synth pads,
low-pass filtered drums, soft plucked bass for
a relaxed, dreamy vibe. BPM: 75. Length: 150s
// 🌆 80년대 신스웨이브
Synthwave 80s retro track with arpeggiated
synth leads, analog pads, electric bass, punchy
electronic drums, gated reverb snares for
nostalgic energy. BPM: 110. Length: 180s
실제로 어떤 음악을 만들 수 있어? 🎬
"그래서 이걸로 뭘 하냐"가 제일 궁금하지? 창작자 입장에서 바로 써먹을 수 있는 시나리오들이야.
- 🎙️ 팟캐스트 인트로·아웃트로 — 에피소드 분위기를 잡아주는 짧은 시그니처 음악. 브랜딩에 딱.
- 📹 유튜브·쇼츠 배경음악 — 영상 컷 길이에 맞춰 길이를 정하고 뽑으면 저작권 클레임 걱정이 줄어.
- 🎮 게임 오디오 프로토타입 — 앰비언트 베드나 루프를 빠르게 만들어 기획 단계에서 분위기 테스트.
- 🎵 음악 스케치 — 머릿속 아이디어를 일단 소리로 뽑아보는 용도. 작곡 초안 잡을 때 유용해.
- 🌙 앰비언트 스트리밍 루프 — 집중용·수면용 긴 배경음을 직접 생성.
공통점이 보이지? "가사 없는 배경·분위기 음악"에 특히 강해. 이게 다음 한계점이랑 바로 연결돼.
한계점은 없어? 🧐
좋은 도구지만 만능은 아니야. 미리 알면 삽질을 줄일 수 있어.
- 알아들을 수 있는 보컬은 안 나와. 가사가 있는 "노래"는 이 모델의 영역이 아니야. 웅얼거리는 보컬 텍스처 정도는 나오는데, 의미 있는 가사는 기대하면 안 돼. 그래서 인스트루멘탈 중심이지.
- 한국어·한국적 장르는 검증이 덜 됐어. 프롬프트는 영어가 가장 안정적이야. 국악이나 K-발라드 같은 건 결과가 들쭉날쭉할 수 있으니 기대치를 조절하자.
- 결과가 매번 달라. 마음에 드는 트랙은 시드를 꼭 메모해 둬. 안 그러면 다시 못 뽑아.
- Medium은 GPU가 필요해. Small은 CPU로도 되지만, 제대로 된 곡은 GPU가 있어야 쾌적해.
자주 묻는 질문 (FAQ) ❓
Q. Stable Audio 3로 만든 음악, 상업적으로 써도 돼?
응. 커뮤니티 라이선스 안에서 결과물을 소유하고 상업적으로 쓸 수 있어. 단, 연 매출 100만 달러 이상 조직은 엔터프라이즈 라이선스를 따로 봐야 해.
Q. GPU 없이도 돌릴 수 있어?
Small SFX·Small Music은 CPU만으로도 돌아가. 다만 6분짜리 완성곡 같은 건 Medium + GPU 조합이 필요해.
Q. 가사 있는 노래도 만들 수 있어?
아니. 알아들을 수 있는 가사는 안 나와. 인스트루멘탈·효과음·배경음악에 특화된 모델이야.
Q. ComfyUI 말고 다른 방법은?
Small·Medium 가중치가 Hugging Face에 공개돼 있어서 로컬로 직접 돌릴 수도 있고, Large는 Stability AI API로 쓸 수 있어.
마무리 🎶
정리하면, Stable Audio 3는 "내 PC에서 돌리는 저작권 깨끗한 AI 작곡가"야. ComfyUI 템플릿 하나로 6분짜리 음악을 뽑고, 그걸 영상·게임·팟캐스트에 마음껏 깔 수 있어. 가사 있는 노래는 못 만들지만, 배경·분위기 음악이 필요한 창작자한테는 충분히 강력해.
오늘 알려준 프롬프트 두 개, 일단 그대로 복붙해서 한 번 돌려봐. 🎧 BPM이랑 악기만 바꿔도 완전히 다른 곡이 나오는 재미가 쏠쏠하거든 🚀
📚 참고: Stability AI 공식 발표, ComfyUI 공식 문서(docs.comfy.org), Stable Audio 3 프롬프트 가이드(GitHub).





댓글 쓰기