Hirdetés

2020. február 25., kedd

Gyorskeresés

Útvonal

Cikkek » Házimozi rovat

Viszlát, FLAC!

  • (f)
  • (p)
Írta: |

Veszteségmentes vagy pszichoakusztikus tömörítés? Megvizsgáltam a kódolási veszteségeket.

[ ÚJ TESZT ]

Közel tíz éve – ami valójában kilenc évet takar, de hát a kerek szám mindig nagyobb presztízsértékkel bír, ahogy így reményeim szerint a mondat megszerkesztője is – olyan mértékben meg voltam már győződve arról, hogy a veszteségmentesnek titulált hangformátumok (FLAC, WAV, stb.) minősége hallhatóan meghaladja a 320 kbps információtartalmú MP3 gagyi, pszichoakusztikus irányelveit, hogy egy cikkecske megírására vetemedtem. Természetszerűleg teljesen saját elhatározásból.

Úgy döntöttem, hogy felülvizsgálom ezt a tényállást, valóban hallom-e.
Eredmény: nem hallok eltérést a 320 kbps MP3 fölött. Sőt, alatta sem.

Azonban ez így elég rövid írás lenne, szemmel is látni szeretném.
CD-flac hanganyagot konvertáltam 320 kbps MP3 formátumba, LAME 3.99 MPEG Audio Layer III enkóderrel, utána mindkettő hanghullámába mintavételezési pontig belenagyítottam, és összehasonlítottam őket. Ez digitális forrás, ha egyezik, akkor az ugyanúgy fog szólni, ha pedig nem, akkor látható kell legyen az eltérés.
Három különböző zene, egy másodperc alatt 44100 ilyen mintavételi pont van, így a legmagasabb leképezhető frekvencia 22.05 kHz.

Nem sok eltérést látok, pedig változatos részeket kerestem és közben sokat átnéztem. Michael Jackson zenéje igen sok összetevőből áll, amik hallgatva nem feltétlen sejtetik magukat. Alatta a lankás hullám a hegedű alapfrekvenciájának sokadik felharmonikusaiból összetett rész, amiről könnyen hihetnénk, hogy ide kell a nagy mintavételezés, hogy szépen visszaadja.

Ide kívánkozik, hogy ha ilyen pontos a tömörített állapot, akkor értelemszerűen az MP3 esetén egymástól teljesen független két csatornán sem lesz másképp, azaz a színpadkép épp olyan jó vagy rossz lesz, mint eredetileg. Ami azt illeti, ez az egészen alacsony bitrátán is megmaradt.

A spektrogram megmutatja, hogy az adott frekvencia összetevőkből mennyi található meg benne. Az összehasonlítás láttatja a létező, de még a „nem létező” eltéréseket is. Az érzékenységét egy példával szeretném bemutatni.

A következőkben látottakat ezek fényében tessék értékelni! Nézzük, mit mutat a formátumok közötti konverzió esetén.

Ránézésre jelentős veszteségnek tűnik, a kérdés, hogy ez mennyire számít.
Mint tudjuk, vitán felül áll, hogy ezt bizony egy jóféle „hifista” polgár azonnal és kétségek nélkül meghallja. Kész szerencse, hogy én nem tartom magam annak, ezért büntetlenül elmélkedhetek azon, hogy szükség van-e erre. Mert a 20 kHz közelében levő, de főleg ez fölötti részeket érdemben nem halljuk. Mondom ezt úgy, hogy nagyon közelről, megfelelő szögben én érzékelem a 20 kHz-et is és még fölötte is egy kicsit, de olyan gyengén, hogy e zenei információ tárolásának értelmét nem látom. Hallgatási távolságból hogy ezt meghalljam, olyan hangerő szükséges, amitől legfeljebb a fejem fájdul meg.

Hirdetés

A főbb magyarázat ezek létjogosultságára nem is ez, hanem hogy ezek adják a felharmonikusok egy részét, ettől lesz az a hangszer olyan hangú, amilyen. Akkor is, ha az nem hallható, az alacsonyabb frekvenciákat módosítja, így az változik és hallható lesz. Vajon mit adhat hozzá ez a zenéhez, egyáltalán módosulnak-e ennek meglétekor, elhagyásakor vagy eltávolításakor az alsóbb, érdemben hallható frekvenciák?
Mivel az elmélet úgy tartja, hogy minden hullámforma leírható különböző frekvenciájú szinuszok vegyítésével, ezért elvileg nem számít, nem módosít. Csak hozzátesz, de ha nem halljuk, akkor minek? A Fourier-transzformáció pedig működik a gyakorlatban, amivel szét lehet választani az adott jelet összetevőire.

Ezt azonban valahogy láttatni is kellene, ezért az alábbiakat követtem el:
• A korábbi érzékeny zenerészletről eltávolítottam mindent 11 kHz fölött.
• Ezután hozzáadtam egy 12 kHz-es szinusz jelet, ez szimulálja a felharmonikusokat, amik esetleg módosítanák az alsóbb frekvenciákat.
• Ezt utána átalakítottam 22 kHz mintavételezésűvé, ezzel ismét eltávolítva a 11 kHz fölötti részeket. Így modellezve azt, amikor az MP3 kódolás elveszi a 20 kHz fölötti részek legtöbbjét.
• Ha minden igaz, akkor a kiindulási állapotot kapom vissza.

Ez gyakorlatilag ugyanaz, még ilyen irreálisan nagymértékű és közel eső jel hozzáadásakor majd elvételekor is. Vagyis élesben a 20 kHz feletti kevéske információ jelentős részének eltávolítása ennél is sokkal jobban megkíméli a többi tartalmat.
Ami nem mellesleg beállítás függő, igény esetén megtartható minden 22 kHz-ig.

Ha a 20 kHz feletti hang eltárolása miatt mégis történt valami nagyon apró változás a hallható tartományban, elképzelhető, hogy a digitalizálás folyamán hallhatóvá vált alacsonyabb frekvencián ez a felső tartomány. Hiszen az ilyesfajta hanganyag rögzítésénél elhagyták az aluláteresztő szűrőt. Ez viszont így már nem távolítható el, vagyis jobb nem lett ettől a felvétel, de legalább rosszabb igen.

Megjegyzés: a hangkártya konfigurálásánál a 44,1 kHz-es beállításon nem megy át a 20 kHz, ezért legalább 48 kHz-et érdemes választani. A legjobb viszont megmérni, mert elképzelhető, hogy fentebb ez a tulajdonság romlik! Észrevenni ezt sem lehet, de még mindig sokkal többet számít, mint amikért sokan vagyonokat képesek elkölteni.

A tárgyalt 44,1 kHz mintavételezésnek van egy elméleti hátránya, mégpedig az, hogy a legnagyobb eltárolható 22 kHz közelében egyre inkább szögletes lesz a jel, függetlenül a kódolástól.

Ezek a ránézésre borzalmas háromszög alakú szinuszok valójában épp oly jók, mint a hullámos. A magyarázat egyszerű, a 22 kHz-nél rövidebb hullámhosszt biztosan nem érzékelő emberi fül azt sem lehet képes feldolgozni, ha az adott jelalak felharmonikusai vagy jelalakja nem írható le, csak 22 kHz-nél nagyobb frekvenciájú összetevővel. Ha hallanánk a különbséget, akkor a sokkal magasabb hangokat is érzékelni tudnánk.

Ami viszont lényegesebb, és teljesen gyakorlati magyarázat, hogy ezek az analóg hanghullámmá konvertáláskor visszaalakulnak szép szabályos szinusszá. Ezek saját mérések, ezekből az össze-vissza szögletes valamikből tényleg ilyen szép szinuszt kapunk vissza, bármilyen hihetetlen is.

Megjegyzés: a hangerősítő frekvencia átvitele nem véletlenül 100 kHz körüli, mert ennyi kell hozzá, hogy az analóg áramköri elemek a 20 kHz-es összetevőket is tartalmazó jelalakot pontosan leképezzék amplitúdó csökkenés és egyéb torzulások nélkül.

Ami a nagyobb információ-tartalmú anyagokat illeti, ez egy 352,8 kHz mintavételezésű, 32 bitmélységű, 6924 kbps-os, óránként 3 GB-ot kitevő zenerészlet. Mivel itt olyan sűrű a mintavételezés, hogy a nagyítás miatt már alig látszik amplitúdó-változás, ezért a második összehasonlítás 14 dB-es erősítés után történt meg, ami közel harmincszoros hangnyomás.

Ha lenne is eltérés – de nincs – magashangszóró legyen a talpán, amelyik 176 kHz-ig megszólal érdemben.
A most következő egy direkt audiofil benchmarkolásra való, 96 kHz mintavételezésű hanganyag elejének spektro képe, ami egészen 48 kHz-ig tartalmaz megszólaltatott részeket. Csengettyűkkel, rézfúvósokkal, dob aljára szerelt rugóval, minden, ami kell ahhoz, hogy kevés lehessen a 320 kbps.
Középen a veszteség látható, miután 24 kHz felső határfrekvenciájú fájlba alakítottam. Alul pedig az, hogy az MP3 a maradék 20 kHz feletti részt vette le, ezen kívül a változás lényegtelen.

Eugène Bozza: Children's Overture

Ugyan ez megnézhető három különböző bitráta esetén is. Látszik, hogy a felsőnél már van érdemi veszteség, és a kritikus pont a két alsó között húzódik.

Ha már alacsony bitráta, az érdekesség kedvéért nézzük meg, mi a helyzet a hullámformával.

Ezek szerint még a 85 kbps / 22 kHz VBR, 11 kHz fölött eldobva mindent sem mutat nagy eltérést.
Ez hanganyagtól függ, alább látható, hogy néz ki, amikor rosszul szól a VBR 85 kbps, mert kevés a rendelkezésre álló hely minden összetevő eltárolására.

Nézzük azt is meg, hogy az irreálisan sok újrakódolás mennyit változtat.
Egymás után tízszer konvertáltam MP3 - WAV - MP3 - WAV - ... között.
A második eset MP3 - MP3 - MP3 - ...
Végül WAV - WAV - WAV - ...

Ahogy várható volt, az MP3 mindig újraértékelt módszere okozni fog valamilyen – meglepően csekély – eltérést. A spektrogramon viszont látszik, hogy ezek az eltérések valóban hibák, kiegyenlítetlenül kiterjedve az egészre. Míg az azonosan konfigurált WAV fix rendszerében – jelen esetben – valójában nem történt konverzió, csak másolás, ezért különbség sem lett.

Visszatérve gyakorlatibb esetekhez, vizsgálni kell, hogy érinti a kis amplitúdójú anyagot a kódolás. Ez egy igen halk mikrofonos felvétel, nem az a fajta, amivel demózni szokták a hangrendszereket. Valójában csekély, de a hangerejéhez képest jelentősebb háttérzajjal, aminek meg kell maradnia.

Ami az MP3 kódolását illeti, úgy tudom, az nem érinti a forrásanyag dinamikatartományát, ezen kívül pedig nincs fixen kiosztva úgy, mint egy pl. lineárisan kvantált WAV fájlnál.
Ez az arány halkabb jelnél is hasonló marad, így az SNR érték ilyenkor sem változik, szemben a PCM információt tartalmazó WAV és FLAC fájllal. Vagyis ha halkul vagy halk a zene, akkor az alapzaj is halkabb lesz. Igaz, itt nem sercegő háttérzajra kell gondolni, gyakorlati felhasználás mellett a kvantálás határait érintő alapzajt észrevenni nem lehet egyik kódolásnál sem.
Az audio CD 16 bitének elméleti 96 dB-es maximuma is nagyon magas, MP3 esetén pedig a gyakorlatban 150 dB vagy az feletti értékeket emlegetnek, ami sokkal-sokkal több, mint amit a fül átfogni képes.

Sok a duma. Halljuk azt a nem létező eltérést!
Az eredeti 96 kHz-es hanganyagot, és az ebből létrehozott 320 kbps MP3 információit kivontam egymásból.

Meghallgatható vagy letölthető a .flac, ahol az eredeti és a különbségi sáv között kapcsolgatok.

Ennek a különbségnek a hangereje 27 dB-lel alacsonyabb, mint a zene. Ez 512-szeres szubjektív hangerő eltérést jelent, azaz ennyied magasságú amplitúdót. Fél ezrelék, és nem is érinti a teljes frekvenciatartományt. Annyi, mintha az equalizer néhány állítóját 0,0059 dB-nyit lejjebb húznánk.
15 dB-nél volt az a határ, ahol nagyon fülelve még meghallottam a zene alatt azt, hogy ki-be kapcsolom ezt a különbségi sávot. Ez a 15 dB 32-szeres hangteljesítménybeli eltérés, nem pedig 512-szeres.

Észre nem vehetőségének oka az elfedési jelenség. Vagyis egy nagyobb hangerő esetén – ami maga a zene – csökken a fül érzékenysége a többi frekvencián is, így ezt a hanganyaggal abszolút szinkronban lévő hiányt meghallani nem lehet.
Aki nem hiszi, tölthető egy fájl, ahol ezt a különbségi sávot másodpercenként tízszer kapcsolom ki-be, négyszögjellel. Ezzel egy igen kellemetlen, az eredetinél sokkal feltűnőbb, kattogó zajt adva hozzá. A hangerő olyan kicsi, hogy még így sem érzékelhető. A rögzítésre került háttérzaj igen, de ez nem.

AAC és OGG. Nem szabad szó nélkül hagyni ezt a két formátumot sem. Összehasonlító ábrával tudok szolgálni, ahol most is a valódi bitrátákat tüntettem fel, nem a konverterben megadottakat.

Mindenki értelmezze belátása szerint. Magas értéken ezek nagyjából olyan eltérések, mint hogy ráhullott-e nyolc szem por a hangszóró membránjára. Kifejezetten alacsony bitrátán viszont meglepően jó eredményt adnak, de ilyenkor talán az OPUS, ami legtöbbször a legjobb.

Ami az OPUS formátum illeti, első ránézésre jobb, mint az MP3, mert a felső tartományban többet tart meg, de miután értelmezzük a mérést, látható, hogy minimális az előnye.

128 kbps alatt viszont egyértelműen sokkal jobban szól az OPUS, mert ilyenkor is sokkal többet tart meg a magas frekvenciatartományból.
Tölthető egy FLAC vs. 80 kbps OPUS összhasonlító csomag. Nem egyszerű vakteszten eltalálni.
Ami árnyalja itt az előnyét, hogy ahol ennek létjogosultsága van, többnyire nem játszható le.
Leginkább talán a 128 – 320 kbps között félúton lehet igazán jó választás, amiből sokkal inkább az online zeneszolgáltatási vonatkozásokban van nyereség, és jóval kevésbé az otthoni tárolásnál, hiszen a mindennel kompatibilis MP3, 320 kbps-on jobb.

A klasszikus WMA alapvetően a nagyon kis tárhelyű, hordozható lejátszóknál volt igazán előnyös, mert a sztereó hangnál a másik csatornát különbségi jelként tárolta. Így pl. 48 kbps-on sztereó lehetett, míg ilyen bitrátán az MP3-ból csak mono jöhetett szóba. Mindezt bőségesen a walkman-élmény fölött.

Összefoglalás. Rendkívül lényegesnek tartom hangsúlyozni, hogy a kódolási veszteségeket vizsgáltam meg, és nem a beszerezhető – illetve sokkal inkább a meglévő évtizedes – MP3 fájlok minőségét.
Próbáltam alapvetően a hibákra koncentrálni, közben megmaradni az életszerűség talaján. Úgy ítélem meg, hogy a 320 kbps bitrátájú MP3 kódolás eredménye annyira keveset változik egy audio CD forrásanyaghoz képest, hogy azt meghallani fizikai képtelenség, ezért semmi nem indokolja a nagyobb tárigényű és nehezebben beszerezhető alternatívák használatát.
Az alapértelmezett beállítások melletti 20 kHz fölötti tartalom nagy részének elvesztését nem tartom problémásnak, mivel az alatta lévő tartományt ez nem befolyásolja. Zenei anyag esetén az ez alatti összetevőket pontosan képes tárolni, 320 kbps bőségesen kiszolgálja a 20 kHz körüli komponensek helyigényét is.
Ami az audio CD-nél bármennyivel is nagyobb átfogású audiofil lehetőségeket illeti, azokhoz képest is lényegtelen a 20 kHz alatti tartomány változása, csak az ez fölötti, füllel nem hallható részben találunk – valójában csekély mennyiségű – többletinformációt.
Nem szabad azonban figyelmen kívül hagyni a placebo-hatást, mivel a tudatnak oly hatalma van, hogy pillanatok alatt képes akár testi elváltozásokat is okozni. Azonban a meggyőződéssel vitatkozni nem lehet, ezért a legjobb tiszteletben tartani, mert mindenki csak önmaga találhatja meg az igazságát.

.oOo.

Utószó. Voltak olyan kedvesek az ellentábort képviselők közül jó néhányan, hogy idejükből rengeteget szakértelmük megosztására áldozzanak.
Ezer fölötti hozzászólás után sikeresen igazolták, hogy a cikk álláspontja megállja a helyét a még ily szigorú zsűri előtt is. Ennek magyarázata, hogy lassan egy hónapnyi eszmecsere és kérlelés után sem sikerült – az egyébként könnyen és gyorsan előkészíthető – ABX vakteszt 10/10 bemutatása.
A 80 kbps OPUS vélhetően rangon aluli, hiszen 10/10 teszteredményt erről sem láthattunk, annak ellenére, hogy az érzékeny hanganyagot tartalmazó tesztcsomag sokszor letöltésre került.

Néhány hangmérnök és neves szakújságíró is megtisztelt jelenlétével, olyan, átlagember számára fel sem fogható magasságokkal, mint a 20 kHz fölötti hangok NEM füllel történő érzékelése, hanem agyi zenei kiműveltség segítségével. Minden bizonnyal tovább mélyítette volna tekintélyüket és hitelességüket, ha az MP3-tömörítvények könnyedén hallható hibáit egy ABX vakteszttel is alátámasztják.

Egyetlen kivétel volt, az elektronikus zenén belül egy szűk rétegstílus, a drum and bass egy bizonyos fajtája, ahol az egyik előadó zenéjével sikerült 10/10 eredményt elérni. Felhasználva a magas középtartományban felfedezett hajszálnyi eltérést. Maga a tesztelő is beismeri, hogy ez nem nevezhető épp komoly hiányosságnak.
Hozzáteszem, ez a zene rengeteg összetevőt tartalmaz, a bitrátája csupán 11 %-al marad el a fehérzajétól, és közel sem hétköznapi hanganyag.

Ezek fényében a cikk álláspontját lezártnak és abszolút megerősítettnek tekintem.

Hirdetés

Copyright © 2000-2020 PROHARDVER Informatikai Kft.