직접 만들고, 내 생각을 더하다: 내 PC에서 돌리는 AI 작곡가, Stable Audio 3 음악 만들기

🎯 한 줄 요약

Stable Audio 3는 2026년 5월 Stability AI가 공개한 오픈 웨이트 음악 생성 모델이야. 텍스트 프롬프트만 넣으면 최대 6분짜리 스테레오 음악이 나와. ComfyUI에 Day-0로 지원돼서 내 PC에서 바로 돌릴 수 있고, 완전 라이선스 데이터로 학습해서 상업적 사용까지 가능해. 한마디로 저작권 걱정 없는 AI 작곡가인 셈이지. 🎵

AI한테 "잔잔한 로파이 힙합 한 곡 만들어줘"라고 했더니 진짜 2분짜리 완성 트랙이 툭 튀어나온다면 믿겠어? 🎧

지금까지 AI 음악은 좀 애매했어. 47초짜리 짧은 샘플이거나, 어디서 가져온 데이터로 학습했는지 몰라서 상업적으로 쓰기 찜찜했거든. 그런데 이번에 나온 Stable Audio 3는 그 두 가지를 한 방에 해결했어. 길이도 늘었고, 출처도 깨끗해. 게다가 ComfyUI에서 곧바로 돌아가니까, GPU 달린 내 PC만 있으면 작곡가 한 명을 통째로 들인 셈이야. 오늘은 이 녀석으로 음악을 어떻게 뽑는지, 처음부터 끝까지 같이 따라가 보자.

Stable Audio 3가 대체 뭐야? 🤔

Stable Audio 3는 텍스트를 음악·효과음으로 바꿔주는 잠재 확산(Latent Diffusion) 모델이야. 장르, 분위기, 악기, 템포를 글로 설명하면 거기에 맞는 44.1kHz 스테레오 오디오를 만들어줘. 이미지 생성이랑 원리가 거의 똑같다고 보면 돼. 프롬프트 → 오디오, 이 흐름이지.

중요한 건 이게 한 개짜리 모델이 아니라 4종 패밀리라는 거야. 내 PC 사양이랑 만들 음악 길이에 맞춰서 골라 쓰면 돼.

모델	최대 길이	실행 환경	용도
Small SFX	약 2분	CPU 가능	효과음·짧은 앰비언스
Small Music	약 2분	CPU 가능	짧은 음악 루프
Medium ⭐	약 6분 20초	GPU 권장	구조 있는 완성곡
Large	약 6분 이상	API 전용	최고 음악성(자체호스팅 X)

👉 우리처럼 집 PC에서 음악을 제대로 만들 거면 Medium이 정답이야. Small은 CPU만으로도 돌지만 길이랑 완성도에서 아쉽거든.

왜 지금 Stable Audio 3에 주목해야 할까? 🚀

이유는 딱 두 가지야. 길이랑 라이선스.

길이가 확 늘었어. 예전 Stable Audio Open은 47초, Open Small은 11초가 한계였어. 근데 3.0은 Small이 2분, Medium은 6분을 넘겨. 인트로–전개–아웃트로까지 들어간 곡 한 곡 통째가 나온다는 뜻이야.
학습 데이터가 깨끗해. Stable Audio 3는 전량 라이선스 받은 데이터로만 학습했어. Stability AI가 무려 127만 개가 넘는 오디오의 출처를 공개했을 정도야. 덕분에 커뮤니티 라이선스 안에서 결과물을 내 것으로 갖고 상업적으로 쓸 수 있어 (단, 연 매출 100만 달러 넘는 회사는 엔터프라이즈 라이선스 별도).

💡 왜 이게 중요하냐면 — 유튜브 영상, 쇼츠, 게임 BGM에 깔 음악은 저작권이 제일 골치잖아. 출처가 명확한 모델로 만든 음악은 이 스트레스를 크게 줄여줘.

ComfyUI에서 어떻게 시작해? 🛠️

좋은 소식. Stable Audio 3는 ComfyUI에 Day-0 지원으로 들어왔어. 별도 커스텀 노드 떡칠 없이 공식 템플릿으로 끝나. 순서는 이래.

ComfyUI 업데이트 — 0.22 버전 이상으로 올려야 해. 안 그러면 노드가 안 보여.
템플릿 열기 — 사이드바 → Templates → Audio → "Stable Audio 3.0" 선택.
모델 다운로드 — 워크플로 열면 빠진 모델 링크를 알아서 띄워줘. 로컬이면 직접 받아도 돼.
폴더 배치 — 체크포인트는 models/checkpoints/, 텍스트 인코더는 models/text_encoders/.
실행 — 프롬프트 쓰고, 길이(초) 정하고, Ctrl+Enter. 결과물은 output/audio/에 저장돼.

⚙️ 꿀팁 — Medium 워크플로는 짧은 아이디어를 Qwen 3.5가 자동으로 풍성한 프롬프트로 늘려주는 "리프롬프트" 기능이 들어 있어. "lo-fi 비트"만 쳐도 디테일을 알아서 채워준다는 얘기야. 이미 상세 프롬프트가 있으면 이 기능은 꺼도 돼.

음악 프롬프트는 어떻게 써야 잘 나와? ✍️

이게 핵심이야. Stable Audio 3는 구조화된 프롬프트를 좋아해. 공식 가이드가 권하는 뼈대는 이래.

TrackType — Music / Instrument / SFX 중 하나로 시작 (예: TrackType: Music)
VocalType — 보통 Instrumental로 두면 더 깔끔하게 나와
Genre — 장르 지정. 여러 개 섞어도 돼 (예: Funk + Jazz)
악기·분위기 — "mellow electric piano", "soft vinyl crackle"처럼 구체적으로
BPM·길이 — 템포와 초 단위 길이를 명시 (예: BPM 75, 150초)

실제 예시 두 개 보여줄게. 그대로 복붙해도 잘 나오는 검증된 프롬프트야. 각 프롬프트 밑에서 결과 음악도 바로 들어봐 👇

// 🎹 잔잔한 로파이
Lo-fi hip-hop chill track with mellow electric
piano, soft vinyl crackle, subtle synth pads,
low-pass filtered drums, soft plucked bass for
a relaxed, dreamy vibe. BPM: 75. Length: 150s

🎵 이 프롬프트로 만든 음악 (로파이)

DH Fun · stable_audio_3_00001

// 🌆 80년대 신스웨이브
Synthwave 80s retro track with arpeggiated
synth leads, analog pads, electric bass, punchy
electronic drums, gated reverb snares for
nostalgic energy. BPM: 110. Length: 180s

🎵 이 프롬프트로 만든 음악 (신스웨이브)

DH Fun · stable_audio_3_00002

💡 두 가지만 기억해 — ① 길이는 만들 음악에 맞게. 4초 효과음을 6분으로 잡으면 오히려 결과가 망가져. ② 같은 프롬프트라도 매번 다르게 나와. 마음에 드는 결과는 시드(seed) 값을 고정해서 재현해.

실제로 어떤 음악을 만들 수 있어? 🎬

"그래서 이걸로 뭘 하냐"가 제일 궁금하지? 창작자 입장에서 바로 써먹을 수 있는 시나리오들이야.

🎙️ 팟캐스트 인트로·아웃트로 — 에피소드 분위기를 잡아주는 짧은 시그니처 음악. 브랜딩에 딱.
📹 유튜브·쇼츠 배경음악 — 영상 컷 길이에 맞춰 길이를 정하고 뽑으면 저작권 클레임 걱정이 줄어.
🎮 게임 오디오 프로토타입 — 앰비언트 베드나 루프를 빠르게 만들어 기획 단계에서 분위기 테스트.
🎵 음악 스케치 — 머릿속 아이디어를 일단 소리로 뽑아보는 용도. 작곡 초안 잡을 때 유용해.
🌙 앰비언트 스트리밍 루프 — 집중용·수면용 긴 배경음을 직접 생성.

공통점이 보이지? "가사 없는 배경·분위기 음악"에 특히 강해. 이게 다음 한계점이랑 바로 연결돼.

한계점은 없어? 🧐

좋은 도구지만 만능은 아니야. 미리 알면 삽질을 줄일 수 있어.

알아들을 수 있는 보컬은 안 나와. 가사가 있는 "노래"는 이 모델의 영역이 아니야. 웅얼거리는 보컬 텍스처 정도는 나오는데, 의미 있는 가사는 기대하면 안 돼. 그래서 인스트루멘탈 중심이지.
한국어·한국적 장르는 검증이 덜 됐어. 프롬프트는 영어가 가장 안정적이야. 국악이나 K-발라드 같은 건 결과가 들쭉날쭉할 수 있으니 기대치를 조절하자.
결과가 매번 달라. 마음에 드는 트랙은 시드를 꼭 메모해 둬. 안 그러면 다시 못 뽑아.
Medium은 GPU가 필요해. Small은 CPU로도 되지만, 제대로 된 곡은 GPU가 있어야 쾌적해.

자주 묻는 질문 (FAQ) ❓

Q. Stable Audio 3로 만든 음악, 상업적으로 써도 돼?

응. 커뮤니티 라이선스 안에서 결과물을 소유하고 상업적으로 쓸 수 있어. 단, 연 매출 100만 달러 이상 조직은 엔터프라이즈 라이선스를 따로 봐야 해.

Q. GPU 없이도 돌릴 수 있어?

Small SFX·Small Music은 CPU만으로도 돌아가. 다만 6분짜리 완성곡 같은 건 Medium + GPU 조합이 필요해.

Q. 가사 있는 노래도 만들 수 있어?

아니. 알아들을 수 있는 가사는 안 나와. 인스트루멘탈·효과음·배경음악에 특화된 모델이야.

Q. ComfyUI 말고 다른 방법은?

Small·Medium 가중치가 Hugging Face에 공개돼 있어서 로컬로 직접 돌릴 수도 있고, Large는 Stability AI API로 쓸 수 있어.

마무리 🎶

오늘 알려준 프롬프트 두 개, 일단 그대로 복붙해서 한 번 돌려봐. 🎧 BPM이랑 악기만 바꿔도 완전히 다른 곡이 나오는 재미가 쏠쏠하거든 🚀

📚 참고: Stability AI 공식 발표, ComfyUI 공식 문서(docs.comfy.org), Stable Audio 3 프롬프트 가이드(GitHub).

내 PC에서 돌리는 AI 작곡가, Stable Audio 3 음악 만들기