Karlheinz Brandenburg - mp3

MP3

       Utoljára frissítve:    Szólj hozzá!

Az MP3 formátum létét a kilencvenes évek elejének átlagos sávszélessége, és a nagy kapacitású merevlemezek magas ára tette szükségszerűvé. A world wide web hajnalán, amikor magánszemélyek számára még egy ISDN vonal is elérhetetlen álomnak tűnt, a betárcsázós kapcsolat maximum 56 kbps-os adatátviteli sebessége mellett napokba telt volna egy alig néhány perces, tömörítetlen audiofájl átvitele. Kellett tehát egy hangok digitális tárolására, illetve hálózati átvitelére alkalmas, rugalmas fájlformátum, melynek mérete és hangminősége a felhasználók többsége számára elfogadható kompromisszumot jelent… Logikusnak tűnik a gondolatmenet, ám a valóságban mire ez az igény egyáltalán megfogalmazódhatott, a kidolgozott formátum már készen állt.

A nyolcvanas évek végén a nemzetközi Moving Pictures Experts Group Audio alcsoportja; a Fraunhofer Társaság, a hannoveri Leibniz Egyetem, az AT&T Bell Laboratóriuma, a Thomson-Brandt, a CCETT és mások közreműködésével kezdte meg a munkát; az általuk épített hűtőszekrény-méretű, helikopter becenevű elektronika a digitalizált hangfelvételeket az eredeti méret 8%-ára volt képes tömöríteni. Az MPEG szakemberei a nehézkesen kezelhető, bumfordi elektronikát kiváltandó, széles körben alkalmazható szoftveres megoldást kerestek; megkíséreltek egy személyi számítógépeken is futtatható algoritmust írni.

Karlheinz Brandenburg, aki az Erlangen-Nürnbergi Friedrich-Alexander egyetem doktoranduszaként professzorától 1982-ben hasonló feladatot kapott, először kivitelezhetetlennek vélte azt. Négy évvel az első sikertelenségeket követően, egy merőben új megközelítéssel és jobb számítógépekkel azonban már egészen biztató eredményre jutott. Abból az elméletből indult ki, hogy egy CD-minőségű digitális felvétel hallgatásakor az emberi agy képtelen feldolgozni a fület egyszerre érő összes információt, következésképpen annak egy része az eredeti hangfelvétel számottevő változtatása nélkül elhagyható. Az ilyen eljárást veszteséges tömörítésnek nevezzük, mert nem teszi lehetővé a tömörített adatból az eredeti adatok pontos rekonstrukcióját, csak egy elfogadható közelítést. A tömörítés során a kimenő adat sohasem egyezik a bemenő adattal, tehát a módszer elkerülhetetlen hangminőség-vesztéssel jár – más kérdés, hogy milyen hatással van ez a zenehallgatás szubjektív élményére.
Brandenburg doktori disszertációjához végzett kutatása jelölte ki az utat nemcsak az MP3, de később az AAC (MPEG-2 Advanced Audio Coding) formátum létrejöttéhez is.

Az MP3 konverzió során kihasznált pszichoakusztikai jelenségek

A hangfájlok veszteséges tömörítési eljárásainak közös tulajdonsága, hogy az emberi hallás korlátainak ismeretében előfeltételezésekre épülnek; mi az, amit adott kontextusban képesek vagyunk meghallani, és mi az, amit nem – utóbbira vonatkozó adatokat az algoritmus elveszíthetőnek minősíti és eldobja.

Hang-maszkolás. Mindenki ismeri a hatást, amikor a mellettünk nagy zajjal elhaladó autóbusz vagy egy alacsonyan szálló repülőgép robaja elnyomja a beszélgetésünket; az erősebb hangok „eltakarják” a gyengébbeket, mintha azok jelen sem lennének.

Frekvencia-korlátok. Gyerekkorunkban még érzékeljük a 20 Hz–20 kHz közötti spektrumot, e képességünk azonban a korral változik. Ahogy öregszünk, fülünk egyre kevésbé érzékeny a legmagasabb frekvenciákra, nagyon kevés középkorú ember hallja a 16 kHz feletti hangokat. Az emberi hallás az 1–5 kHz-es hangtartományra a legérzékenyebb – még ha halljuk is a spektrum szélein az extrém magas, illetve extrém mély frekvenciákat, azok jóval halkabbnak tűnnek a középfrekvenciáknál.
A közepes és gyenge minőségű MP3 fájlok konverziója során ezért levágják a 16 kHz feletti hangokat. Az emberi fül által érzékelhető teljes hangspektrum csak a 256 kbit/s és az annál magasabb bitrátájú MP3 fájlokban kerül dekódolásra.

Irányérzékenység. 80 Hz alatt az emberi hallás irányérzékenysége gyakorlatilag megszűnik; pusztán a fülünkre hagyatkozva képtelenek vagyunk megállapítani, mely irányból halljuk a legmélyebb hangokat. (Hallásunk e tökéletlenségéből kovácsolnak előnyt akkor is ki, amikor csak egy szubbasszus-ládát telepítenek a többcsatornás házimozi rendszerhez.) A könnyűzenei felvételek túlnyomó többségét eleve úgy rögzítik, hogy a legmélyebb frekvenciákon alig van különbség a két csatorna között; a lábdob és a basszusvonal középről szól. Az M/S sztereó kódoláskor a bal és a jobb csatorna jelét M (middle – közép), valamint S (side – oldal) jellé alakítják át. Az M csatornán a bal és a jobb csatorna összegét, az S csatornán a kettő különbségét tárolják. (A mátrix sztereó néven ismert eljárás a sztereó FM műsorszórásban és a sztereó mikrobarázdás hanglemezeken is használatos.) Az MP3 konverzió során választható „joint stereo” beállítással az algoritmus a hagyományos L/R sztereó kódolás helyett akár frame-enként váltogathat a L/R és a M/S kódolási eljárások között.

Az emberi hallás e korlátainak kihasználása elméletben egyszerűnek tűnik, de egy olyan kevéssé feltérképezett területen, mint az emberi érzékelés, a gyakorlati kivitelezés igencsak bonyolult volt. A kihívást egy fizikai jelenség egyénenként eltérő érzékelésének az átlagolása, illetve annak a matematika nyelvére való lefordítása jelentette. Ismerjük a jelenség jellemzőit, ám hogy azt a gyakorlatban a hallgatók hogyan érzékelik, az egyes frekvenciákon mennyit és mennyire élesen vághatunk az eredeti hangfelvétel meghamisítása nélkül – végső soron szubjektív döntések sorozatának eredménye. Az azonos alapelven nyugvó konverziót ízlésünktől, beállítottságunktól függően többféleképpen is elvégezhetjük. Ezért létezhet ma több MP3-kódoló alkalmazás, és véget nem érő viták, hogy melyikkel érhetünk el jobb hangminőséget.

1988-ban már szinte bármilyen zene átalakításakor meglehetősen jónak tűnt az eredmény, de a művelet gyakorlatilag tönkretette a kíséret nélküli énekhangokat. Az énekhangok konverziója feltehetőleg azért bizonyult az algoritmus leggyengébb pontjának, mert fülünk evolúciósan az emberi hangtartományba eső, azon belül is a leggyakrabban előforduló hangokra a legérzékenyebb. Brandenburg az MP3 kódolási eljárás további finomhangolásához ezért egy akapellát, Suzanne Vega Solitude Standing albumának Tom’s Diner című felvételét használta.

Suzanne Vega – Tom’s Diner

A Tom’s Diner videó klipje Suzanne Vega Solitude Standing albumáról.

Az MPEG audio alcsoport mérnökei 1991-ben terjesztették elő, majd a következő évben véglegesítették a szabványt, 1993-ban pedig nyilvánosságra hozták az új formátumot. A nagy, szórakoztató elektronikai berendezéseket gyártó cégek a rendelkezésre álló három kódolási eljárás közül az MPEG Audio Layer II-t elég jó kompromisszumnak, az MPEG Audio Layer III-t viszont túl bonyolultnak tartották, így nem foglalkoztak vele. Átmenetileg úgy tűnt, senkit nem érdekel a formátum.

Egy Erlangenben tartott, 1994-es stratégiai meetingen merült fel először, hogy az MPEG Audio Layer III legyen az internet audió szabványa. 1995. július 14. a formátum születésnapja; ezen a napon döntötték el, hogy MPEG Audio Layer III az mp3 fájlkiterjesztést kapja. A Fraunhofer Társaság által tervezett üzleti modellben az MP3 kódolást végző szoftvert magas áron és csak a legnagyobb cégeknek, a dekódoló algoritmust viszont olcsón, mindenki által elérhető áron értékesítették volna – de közbeszólt az élet. Egy ausztrál diák lopott hitelkártyaszámmal megvásárolta a professzionális kódoláshoz szükséges algoritmust, majd a világhálón bárki számára elérhetővé tette.
Az MP3 fájlok a kilencvenes évek második felében kezdtek terjedni az interneten, népszerűségük a Winamp szoftver 1997-es megjelenésével csak tovább nőtt. 1999-ben megkezdte működését a Napster, a p2p fájlcserélő alkalmazások használatának robbanásszerű elterjedése végleg megszilárdította az MP3 de facto standardját.

MP3 és hangminőség

Az MP3 több szempontból a hetvenes-nyolcvanas évek legelterjedtebb, felvételre és visszajátszásra egyaránt alkalmas médiuma, a kazetta a közeli rokonának tekinthető. A nagyközönség által elérhető árú kazettás magnók az analóg hangrögzítésből eredő hibáktól; a sávhatárolt és egyenetlen frekvencia-átviteltől, a korlátozott dinamika-tartománytól, a magas torzítástól, a folyamatosan jelen levő alapzajtól, valamint elsősorban a mechanikus lejátszás pontatlanságából, vagyis a szalagsebesség ingadozásából eredő hibától, a „nyávogástól” szenvedtek. (A kazettás magnók csúcsminőségét képviselő ezoterikus készülékekre; Tandberg 3014-esre, Nakamichi Dragonra, CR-7-esre vagy ZX-9-esre keveseknek futotta.)
A digitális hangrögzítés – kezdeti gyermekbetegségei ellenére – tagadhatatlan előrelépést kínált az analóg módszerrel szemben, ugyanakkor egy sor, addig ismeretlen hibalehetőséggel bonyolította a képletet. Az MP3 konverzió egyszerűen „eldobja” a digitális információ jelentős hányadát – igen, dolgozik az algoritmus, de a zenei információ tekintélyes része az adattömörítési eljárás során örökre odalesz. Az MP3 fájlok lejátszásakor a digitális/analóg átalakítás időbeli pontatlanságai torzítást és zajt hoznak a hangzásba, ami a hordozható készülékek esetében hatványozottan jelentkezik. Mindkét formátum kompromisszum tehát; mindkettő rosszul szól, csak másképp.

De az MP3 nálam ugyanolyan jól szól, mint a CD!

Ugyan. Hallgass meg egyszer egy jó minőségű felvételt CD-ről, majd közvetlenül utána ugyanannak a felvételnek az MP3 változatát. Még jobb olyan A/B tesztet végezni, melyben szigorúan azonos hangerőn, egyszerre fut ugyanaz a zeneszám CD-ről, illetve egy MP3 lejátszóról, s a kritikus részeknél ide-oda kapcsolgathatsz az erősítőn a két forrás között. Célravezető „vakon” tesztelni, amikor más váltogat, te pedig nem tudod, mikor melyik műsorforrást hallod, így az esetleges előítéleteid nem befolyásolnak a véleményalkotásban. Ha valóban képtelen vagy megkülönböztetni a kettőt, az legtöbbször csupán annyit jelent, hogy a lejátszó berendezésed eleve alkalmatlan a különbség kimutatására. Egyszerűen annyira rosszul szól, hogy elkeni a különbséget. Vagy – ugyancsak gyakori típushiba – az egyszeri zenehallgató nem tudja, az ilyen A/B teszt során konkrétan mire koncentráljon.
Elektronikus zenék tesztcélokra való használatakor még egy csavar is van a történetben. Míg a komolyzenénél az akusztikus hangszerek hangja a nyilvánvaló referencia, a sztereó képet pedig a zenészek ülésrendje, térbeli elhelyezkedése határozza meg, az elektronikus zenéknél felmerül a kérdés, mihez képest kell a felvételnek hangzás-hűen megszólalnia.

Az MP3 alapvető fogyatékosságai

  • Basszus-szegénység. A mélyfrekvenciák felpuhulnak, elveszítik meggyőző erejüket, lendületüket.
  • Sistergés. Természetellenes, mindent átható, fémes hangzás, mintha valaki folyamatosan egy alumínium fóliát gyűrögetne.
  • Hozzáadott torzítás. A normalizálással torzítás kerül képbe, amit csak fokoz a hordozható lejátszók jittere.
  • Fedett hangzás. Mintha minden egy függöny mögül szólna. A csillogó részletek elveszítik fényüket, kifakulnak és csörömpölni kezdenek, a cintányérok anyaga többé nem réz, hanem alumínium.
  • Kétdimenziós, lapos hangzás. Főleg a gyengébb minőségű MP3 fájlokra jellemző, hogy a konverzió alkalmával az algoritmus által elveszíthetőnek ítélt adatok között apró, ám felettébb fontos, mélység- illetve jelenlét-érzetet adó részletek kerülnek törlésre. Az egész hangtér kilapul.

Mindezek eredőjeként jelentkező hatás a hallgató kifáradása, mely rendszerint annál hamarabb következik be, minél gyengébb a hangminőség. Az MP3 konverzió nemkívánatos következményeit az alábbi videó teszi igazán szemléletessé. A kísérletben az MP3 fájlt 180 fokos fáziskülönbséggel, az eredeti, tömörítetlen felvétellel egyszerre játsszák be. A fizika törvényeinek megfelelően az azonos időben és hangerővel, de ellenfázisban érkező hanghullám teljes mértékben kioltja az eredeti hanghullámot, tehát egy tökéletesen átalakított, az eredeti felvételt semmilyen módon meg nem hamisító hangfájl esetén semmit nem szabadna hallanunk. Amit mégis hallunk, az a tömörített MP3 fájl hanganyaga és az eredeti felvétel közötti különbség, a konverzió elkerülhetetlen melléktermékeként a zenéhez adott magas torzítású, digitális „szemét” (ez az a korábban említett, alumínium fólia gyűrögetésére emlékeztető hang.)

Mp3 vs. WAV – Music Quality and Mp3 Artifacts

Mit tehetek, hogy az MP3 fájljaim jobban szóljanak?

Ha mindenképpen ragaszkodsz a formátumhoz, legalább

  • használd az elérhető egyik legjobb kódoló alkalmazást. A nyílt forráskódú, ingyenesen letölthető LAME nem véletlenül az MP3 közösség kedvence.
  • válaszd kódoláskor a legmagasabb bitrátát. Az iTunes alapbeállításban a mai napig csak gyenge minőségű, 128 kbit/s konverziót végez, ezt ajánlatos a maximális 320 kbit/s-ra állítani. (Szerkesztés menü / Beállítások / Általános / Importálás beállításai / a megnyíló ablakban Importálás a következő használatával: MP3 kódoló / Beállítás: Egyéni / a megnyíló ablakban Sztereó bitsebesség: 320 kbps. A „Hibajavítás használata audió CD-k olvasásakor” mindig legyen bejelölve.)
  • használj külső DAC-ot lejátszáskor. Előnyeiről bővebben második számítógép audió cikkünkben írtunk. Ha nincs kereted több százezres asztali készülékre, megfontolandó egy olcsóbb, USB drive méretű, hordozható mini-DAC beszerzése. A nemzetközi szaksajtóban az Audioquest Dragonfly ($149), az Audioengine D3 DAC ($149), a Cambridge Audio DacMagic XS ($189), a Hegel Super DAC ($299), a Resonessence Labs Herus ($350), illetve Herus+ ($425) modelljei kapnak rendszeresen elismerő kritikát.

Élet az MP3 után

aac kódolás beállításaHa választásodnál a helytakarékosság az elsőrendű szempont, érdemes mérlegelni a fejlettebb AAC vagy Ogg Vorbis konverziók lehetőségét – szem előtt tartva, hogy az AAC fájlok lejátszásához valamilyen Apple kütyü, illetve iTunes, Windows gépeken ugyancsak iTunes vagy VLC Player, de minimum Windows Media Player 12-es szükséges. Javasolt iTunes beállítás a legjobb minőségű AAC fájlok konvertálásához: Szerkesztés menü / Beállítások / Általános / Importálás beállításai / a megnyíló ablakban Importálás a következő használatával: AAC kódoló / Beállítás: iTunes Plus. A „Hibajavítás használata audió CD-k olvasásakor” mindig legyen bejelölve.

alac kódolás beállításaVégül választhatod a veszteségmentes tömörítési eljárások valamelyikét (FLAC, ALAC). Ezek az eredeti fájlméret 40–60%-ára, de ami nagyon fontos: hangminőség-vesztés nélkül tömörítenek, belőlük az eredeti hangfájl maradéktalanul, bitre pontosan visszaállítható. Mindkettő nyílt forráskódú, ingyenesen hozzáférhető szoftver, támogatják a katalogizáláshoz nélkülözhetetlen meta adatokat, tárolják a borítóképet és lehetővé teszik a legmodernebb, magas felbontású audió fájlok kódolását is. Ajánlott iTunes beállítás ALAC fájlok konvertálásához: Szerkesztés menü / Beállítások / Általános / Importálás beállításai / a megnyíló ablakban Importálás a következő használatával: Apple Lossless kódoló / Beállítás: Automatikus. A „Hibajavítás használata audió CD-k olvasásakor” mindig legyen bejelölve.

A Windows Media Player, az iTunes vagy az Audiograbber hibajavító algoritmusaival elégedetlen audiofilek fejlettebb célszoftverrel rippelnek, mely képes bitre pontosan kiolvasni az akár sérült CD lemezen kódolt információt is. Az Exact Audio Copy pontos beállítása igényel némi előképzettséget, de a program ingyenes, ráadásul még egy egyszerű hangszerkesztőt is tartalmaz. A könnyebben kezelhető és valamivel gyorsabban dolgozó dBpoweramp inkább ajánlható kezdőknek. Ez utóbbi fizetős program, de a meglehetősen baráti árban ($39) egy konverter is benne foglaltatik, mellyel audiofájljainkat tetszés szerinti formátumba alakíthatjuk. Mindkét szoftver egyaránt képes tömörítetlen és tömörített fájlokba is rippelni, egy nemzetközi adatbázisból automatikusan lekérni a lejátszóba behelyezett CD meta adatait, valamint ellenőrizni a kiolvasás pontosságát.

Az MP3 a kilencvenes évek közepének technológiai problémáira adott kényszerválasz. Húsz évvel később, amikor mind a nagy kapacitású merevlemezek, mind a nagy sávszélességű internet-hozzáférés elérhető a többség számára, a teljes élmény helyett felesleges kiegyeznünk egy „elfogadható kompromisszummal”. Ahogy a kép-, úgy a hangrögzítésben is a magas felbontásé a jövő.

Válassz hasonló témájú írásainkból

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöljük.