[100일 프로젝트] Day 11 - 손실압축(MP3/AAC) 원리와 한계

오늘의 질문

디지털 음원의 생성 방식인 PCM, 그리고 이를 구성하는 샘플링레이트와 비트뎁스를 이해했다면 이제는 이런 궁금증이 생깁니다.

압축률 높은 MP3와 AAC는 어떤 원리로 용량을 줄일까요?
손실 압축은 어떤 정보를 버리기 때문에 음질이 변하는 걸까요?
비트레이트와 인코더 설정, 반복 인코딩은 청취 경험에 어떤 영향을 줍니다?

오늘은 CD 이후 음악 시장을 지배해 온 손실 압축 코덱의 원리와 한계를 살펴봅니다.
입문자 관점에서 이해하기 쉬운 비유와 함께 설명하겠습니다.

핵심 개념 3개

손실 압축은 청각 모델에 기반해 중요하지 않은 정보를 버리는 과정입니다. 인간이 들을 수 없는 소리, 혹은 더 큰 소리에 묻혀 들리지 않는 소리를 줄입니다.
MP3는 초기 손실 코덱이며, AAC는 이를 개선한 보다 효율적인 후속 코덱입니다. 같은 비트레이트에서도 AAC가 품질 면에서 우수한 경우가 많습니다.
높은 비트레이트의 손실 음원은 대다수 상황에서 투명하게 들리지만, 재인코딩이나 극단적 압축을 반복하면 정보 손실이 누적됩니다.

공학적으로 이해하기

1) 왜 ‘손실’인지: 청각 모델과 심리음향

PCM 오디오는 모든 샘플을 그대로 담는 반면, 손실 코덱은 인간의 청각 특성을 이용합니다.
인간 귀는 20Hz ∼ 20kHz 범위에서만 소리를 들을 수 있고, 강한 소리에 묻힌 약한 소리를 잘 인지하지 못합니다.
손실 압축은 이러한 마스킹 효과와 가청 대역을 모델링해 중요도가 낮은 정보를 버립니다.

MP3나 AAC는 먼저 신호를 주파수 영역으로 변환(MP3는 32개 서브밴드와 MDCT, AAC는 순수 MDCT)을 적용하고,
각 주파수 밴드에 청각 모델을 적용해 들리지 않을 부분을 제거합니다.

갑자기 서브밴드, MDCT와 같은 용어가 나와서 놀라셨죠? 지금은 그저 소리를 분석하기 위한 도구 정도로만 이해하셔도 괜찮습니다.

이때 소리를 더 압축하기 위해 양자화 스텝을 넓혀 오류를 허용하는데, 이 오류가 곧 ‘손실’입니다.
다행히 적절한 비트레이트에서는 이러한 오차가 인지되지 않을 정도로 미세합니다.

2) MP3와 AAC의 차이

MP3는 1990년대에 등장한 코덱으로, 32개의 서브밴드 필터와 576포인트 MDCT를 조합해 신호를 처리합니다.
설계가 단순하고 다양한 재생기기에 널리 지원되지만, 고주파 영역의 해상도가 낮고 스테레오 효율화 방식이 제한적입니다.

반면 AAC(Advanced Audio Coding)는 MP3 이후 개발된 코덱으로, 전 주파수 대역에 MDCT를 적용하고
비트 풀과 라운드 블록 스위칭 같은 기술을 이용해 시간 해상도와 주파수 해상도를 상황에 따라 바꿉니다.

또한 퍼셉추얼 노이즈 대체(PNS), 분할 스테레오 코딩(M/S coding) 등을 적용해 적은 비트로도 더 나은 품질을 제공합니다.
덕분에 128kbps AAC는 192kbps MP3와 비슷하거나 더 낫다고 여겨집니다.

쉽게 말해 MP3는 음원이 가지고 있는 전체 주파수 대역을 먼저 똑같은 크기의 32개 블록으로 쪼갠 뒤,
MDCT(Modified Discrete Cosine Transform)을 통해 정밀하게 성분을 분석합니다.
이미 32개로 구분해 둔 음원을 다시 18개 구역으로 구분, 총 576개로 나누어 분석하는 것입니다.

사실 이런 두 번에 걸친 과정은 이전 세대 오디오 기술과의 호환성 문제 때문이었습니다.
그래서 이후에 개발된 AAC는 전처리 과정인 서브밴드를 빼고 처음부터 MDCT를 적용합니다.
그것도 MP3보다 훨씬 더 촘촘한 1024개로 분해해서요. 불순물을 걸러내는 채를 생각해 보세요.
이 채가 더 촘촘해진 덕분에 AAC는 버려야 할 소리와 버리면 안 되는 소리의 구분을 더욱 정교하게 구분할 수 있습니다.

과정이 어찌 되었든 둘의 목적은 같습니다.
인간이 잘 듣지 못하는 소리를 찾아서 제거하기 위함입니다.
다시 말해 손실 압축이란 잘 듣지 못할 것이라 판단되는 정보들을 버리는 과정을 뜻합니다.

3) 비트레이트, VBR

이렇게 걸러낸 신호를 1초에 얼마만큼의 데이터를 사용해서 저장할 것인가. 이를 결정하는 것이 비트레이트입니다.
다시 말해 비트레이트는 1초에 사용할 수 있는 비트 수로, 곡의 정보량과 곧바로 연관됩니다.

데이터를 비트레이트에 담는 방식은 크게 두 가지가 있습니다.

**CBR(고정 비트레이트)**는 모든 구간에 동일한 비트레이트를 배분하지만,
**VBR(가변 비트레이트)**는 복잡한 부분에 더 많은 비트를, 단순한 부분에는 적은 비트를 할당합니다.
대부분의 현대 인코더는 VBR을 기본으로 하며, 주파수와 시간에 따른 복잡도를 감안해 음질을 최적화합니다.

여기서 한 가지 의문이 들지 않으시나요?
VBR을 사용했을 때, 어떤 식으로 계산해서 비트를 할당할까요?
이 계산 알고리즘에 따라서 음질 혹은 데이터 크기가 달라지지 않을까요?

맞습니다. 사용하는 VBR 알고리즘에 따라 데이터를 담는 방식이 달라지고, 이에 따라 음질과 파일 크기도 달라집니다.
그리고 이 계산을 정말 잘하는 곳이 바로 애플입니다. Apple AAC가 같은 비트레이트 음원이라도 소리가 더 좋게 들리는 이유입니다.

4) 한계와 올바른 활용

손실 압축의 가장 큰 한계는 원본을 완벽히 복원할 수 없다는 점입니다.
정보가 버려졌기 때문에 다시 무손실로 변환해도 잃어버린 세부 정보는 돌아오지 않습니다.
또한 극단적으로 낮은 비트레이트(예: 64 kbps)에서는 스워시(swash)나 모스키토 노이즈 같은 잡음이 들리고, 스테레오 이미지가 좁아집니다.

그럼에도 불구하고, 과거 손실 코덱은 스트리밍과 모바일 환경에서 필수였습니다.
디스크 공간과 네트워크 대역폭을 크게 절약하면서도, 인코더 및 비트레이트 설정을 잘 선택하면
대부분의 청취 상황에서 손실과 무손실의 차이를 구분하기 어렵다고 판단했기 때문입니다.

하지만 최근에는 인터넷 환경이 발달하면서 무손실 음원을 주고 받는 데에도 문제가 없는 시대입니다.
이에 따라 스트리밍 역시 무손실을 넘어 고음질까지 보급화되고 있고요.

청취 경험/인문학적 관점

손실 압축인 MP3가 처음 등장했을 때 많은 오디오 애호가들은 분개했습니다.
그러나 대다수 청취자는 192 kbps 이상의 MP3에서 차이를 거의 느끼지 못한다는 실험 결과가 이어지기도 했고,
편리성과 휴대성을 고려하면 손실 포맷이 오히려 음악 감상의 진입 장벽을 낮추는 효과도 있었습니다.

하지만 음질 차이를 인지하는 능력은 개인의 청력, 장비, 음량, 배경 소음에 크게 의존합니다.
최근 점점 기기의 성능이 올라가고, 또 유저들도 음질에 보다 관심을 가지면서
잘 정돈된 환경에서는 음원 스펙에 따른 음질차를 체험하기가 수월해지고 있습니다.

다만 이를 명확히 구분하기 위해서는 그럴 수 있을 만한 환경이 갖추어져야 합니다.
아무리 음원 스펙이 높다고 하더라도 이를 제대로 재생할 만한, 그리고 제대로 청취할 만한 환경이 아니라면 무의미합니다.

실전 예시

예시 1) 스트리밍 음질 선택

스트리밍 서비스를 사용할 때 ‘고음질’ 옵션이 실제로 무엇을 의미하는지 궁금할 수 있습니다.
야외와 같은 시끄러운 환경에서는 AAC 256kbps 또는 320kbps만 하더라도 무손실과 별반 다르지 않은 품질을 기대할 수 있습니다.
다만 이보다 더 낮은 비트레이트에서는 데이터 사용량은 줄어들지만, 특히 고역에서 거칠음이나 공간감 축소를 느낄 수 있습니다.

예시 2) 손실 음원 재압축의 위험

지인이 보낸 128kbps MP3 파일을 320kbps로 변환한다고 해서 음질이 좋아지지는 않습니다.
이미 128kbps 인코딩 과정에서 정보가 사라졌기 때문입니다.
오히려 재압축 과정에서 새로운 양자화 노이즈가 추가되어 더 나빠질 수 있습니다.

이와 비슷한 사례가 과거 스트리밍 사이트의 '뻥튀기 스펙 음원' 사건입니다.
애초에 정보량이 부족한 음원을 단순히 수치만 높여서 고음질 음원으로 속여서 판매하는 것이죠.

따라서 편집을 위해서는 항상 활용이 가능한 최대 스펙의 음원을 사용하고, 최종 배포 시에만 적당한 포맷으로 인코딩하는 것이 좋습니다.

앞으로의 학습 흐름

오늘은 손실 압축이 어떻게 인간의 청각 모델을 이용해 데이터를 줄이고, 그 한계가 무엇인지 살펴봤습니다.
다음 글에서는 무손실 포맷과 하이레졸루션 음원이 실제로 어떤 의미를 갖는지, 그리고 무손실 음원과 고해상도 음원의 차이를 다뤄 보겠습니다.

Day 12: 무손실(FLAC/ALAC)과 하이레졸루션의 실제 의미

마무리

MP3와 AAC는 현대 음악 소비를 가능하게 한 혁신적인 기술입니다.
손실 포맷이 나쁘다기보다는, 목적과 환경에 맞게 사용하는 것이 핵심입니다.
고품질 감상이나 편집을 위해서는 무손실 포맷을, 이동 중 듣거나 데이터 사용이 중요한 상황에서는 적절한 비트레이트의 손실 포맷을 선택하세요.
손실 압축의 원리를 이해하면 포맷과 비트레이트에 얽매이지 않고, 자신에게 가장 적합한 음원을 선택할 수 있습니다.