2019. augusztus 21., szerda

Gyorskeresés

Útvonal

Cikkek » Számtech rovat

The Duel: 8800GT VS 9600GT

  • (f)
  • (p)
Írta: |

Avagy járjunk már a végére, miért nem 50-60% a különbség! A 9600GT megjelenésekor osztatlan sikert aratott...

[ ÚJ TESZT ]

Avagy járjunk már a végére, miért nem 50-60% a különbség!

1. Bevezető

A 9600GT megjelenésekor osztatlan sikert aratott teljesítményével – a műszaki adatok (elsősorban a 64 shader processzor) alapján senki sem gondolta előre, hogy milyen jól fog muzsikálni. És bár adott indokot nem kevés fejvakarásra, hogy hogyan tudja a nála ALU-teljesítményben több, mint kétszer gyorsabb HD3850-et megelőzni szinte minden játékban, a legnagyobb meglepetést talán az jelentette, hogy a 112 shader processzorral rendelkező 8800GT-től alig 10-15%-kal van lemaradva. Ennek az okát a mai napig nem sikerült hitelt érdemlően felderíteni, az nVidia pedig mélyen hallgat róla. Nem is ok nélkül – az, hogy a 60-65%-kal nagyobb shader- és textúrázó-kapacitás mindössze ennyi teljesítmény-többletet hoz, az arra utal, hogy a G92-es chipben valahol van egy olyan szűk keresztmetszet, amely komolyan visszafogja a 8800GT-k teljesítményét.
Ez a teszt a szokványostól némileg eltérő módon próbálja ráerőszakolni a két kártyát, hogy fedjék fel a titkukat.

Nyilvánvaló kérdés, hogy miért érdemes két ilyen „régi” kártyával foglalkozni. Nos, egyrészt a számos 8800GT és 9600GT tulajok közül sokakat érdekel ez a téma, másrészt a GTX200-as kártyák teljesítményéből valószínűsíthető, hogy ezt a szűk keresztmetszetet a GT200 chipben sem sikerült felszámolni – ezért ez az elemzés az új nVidia architektúra gyengéiről is el fog árulni egyet s mást.

Hirdetés

2. Tesztmódszer

A 8800GT és a 9600GT összehasonlítása azért nagyon nehéz, mert komoly eltérések vannak a két kártya képességeinek arányaiban – míg shaderek és textúrázók terén a 8800GT-nek 60-65%-os előnye van, a memória-sávszélességek már egyformák, végül pedig a háromszögek feldolgozásában és a ROP-ok által végzett műveletekben (pixel fill, z-fill, AA-mintavételezés, stb.) a 9600GT gyorsabb 8%-kal. Ezért első ránézésre mindegyik teszteredményre adható valamilyen magyarázat – a bökkenő csak az, hogy ezek a magyarázatok nincsenek megfelelően kontrollált mérésekkel alátámasztva.
Ez a teszt úgy próbálja kideríteni a vártnál alacsonyabb különbség okát, hogy igyekszik a két kártya közötti egyensúly-különbséget minél inkább eltüntetni, és úgy összevetni a teljesítményüket.

Teszt referencia órajelekkel
Ezek a mérések szolgáltatják a teszt kiindulási alapját – érdemes megnézni, hogy a 9600GT megjelenésekor jellemzően hangoztatott 10% körüli különbség most hol tart.
A táblázatokban és a grafikonokon a 8800GT eredményei zöld, a 9600GT eredményei világoszöld színnel szerepelnek.

4 lépésben 0% és 50% között
Élve a 3 órajel-domain adta lehetőségekkel, egy olyan négy elemű tesztsort készítettem, ahol induláskor a két kártya paraméterei majdnem egyformák, és 3 lépés után eljutunk addig a beállítás-párig, ahol a 8800GT minden fronton 50%-kal gyorsabb. A 4 lépés sorban:
1. A két kártya (majdnem) minden fronton egyforma sebességű (8800GT: égkék, 9600GT: világoskék)
2. A 8800GT shader-teljesítménye 50%-kal magasabb (8800GT: zöld, 9600GT: méregzöld)
3. A 8800GT shader-teljesítménye és memória-sávszélessége 50%-kal magasabb (8800GT: piros, 9600GT: narancs)
4. A 8800GT (majdnem) minden tekintetben 50%-kal gyorsabb (8800GT: piros, 9600GT: aranysárga)

Megjegyzés: mindegyik lépésben kivételt képez a textúrázási teljesítmény, ugyanis a 8800GT-ben 75%-kal több textúrázó van, viszont a shaderekkel ellentétben nem tartozik hozzájuk külön órajel-tartomány, így olyat nem lehetett csinálni, hogy a két kártya között mind a ROP-ok, mind a textúrázók teljesítménye egyforma legyen. Az első lépés összehasonlításain lehet majd látni, hogy a textúrázási teljesítménynek általában kevesebb befolyása van a végeredményre, mint a többi tényezőnek, ezért ezt volt a legkevésbé fájdalmas kivételként kezelni – az 1-3 lépésekben a 8800GT textúrázási teljesítménye 75%-kal, a 4. lépésben 162%-kal magasabb a 9600GT-énél.

A tesztkonfiguráció:

Némi magyarázat:
A kártyák órajelei egyes helyeken nem a hivatalos számokkal egyeznek meg, a táblázatba a RivaTuner által mutatott MHz-ek kerültek.
Az összehasonlítások megkönnyítése érdekében feltüntettem pár elvi teljesítményadatot is.

A tesztek 1280x1024-es felbontásban készültek, külön élsimítás nélkül és élsimítással is; a játékokban a maximális beállítások lettek kiválasztva. Ahol a fentiek valamilyen okból nem voltak lehetségesek vagy célszerűek, arra az adott tesztnél kitérek.
Minden teszteset háromszor lett lemérve, a grafikonokon a 3 mérés átlaga látható.

3. Tesztek

A tesztelt játékok közé mind modern, mind régebbi játékok bekerültek annak érdekében, hogy lehessen látni, az egyes következtetések mennyire általánosíthatóak. A kártyák minél jobb összehasonlítása érdekében igyekeztem kiküszöbölni a platform limitációt, ezért a közismerten CPU-zabáló játékok közül csak az Oblivion és a World in Conflict fért be az alábbi mezőnybe:

Bioshock 1.0
Crysis 1.2
F.E.A.R. 1.08
Oblivion 1.2.0416
Race Driver: GRID 1.0
Rainbow Six: Vegas 1.04
World in Conflict 1.0.0.0

Az alábbiakban a mérések eredményei láthatóak, minimális körítéssel – az elemzést és a következtetéseket a 4. és az 5. fejezet tartalmazza.

3.1 Bioshock

A Bioshock nem támogatja az élsimítást, ezért ilyen tesztek nem készültek.
A víz alatti világban a jól bevált tesztszekvencia futott, a Welcome to Rapture pálya végén:

3.2 Crysis

A mérésekben a játék Benchmark_CPU tesztje segített:

3.3 F.E.A.R.

Itt a két eset kicsit eltér a többi játéktól: az AA nélküli esetben be van kapcsolva a Soft Shadows, míg AA mellett ez a feature kikapcsol – ezért hasonlóak ennyire a mért számok.
A mérésekhez a beépített benchmarkot használtam:

3.4 Oblivion

Az Oblivion mérések (természetesen) bekapcsolt HDR mellett készültek. Ilyenkor a 4xAA-s teszteket csak úgy lehet megejteni, hogy a driverből „ráerőszakoljuk” a játékra az élsimítást – mivel a játék támogat AA-t, és a HDR+AA kombináció kitiltását egyedül a régebbi GeForce kártyák problémái indokolják, a „külső” AA várhatóan nem torzítja az eredményeket.
A tesztszekvencia a korábban is használt dimbes-dombos-farkasos séta a The Great Forest helyszínen:

Sajnos itt a várakozásnak megfelelően sikerült belefutni egy kis platform-limitációba – a piros oszlopnak az AA nélküli esetben elvi síkon 85fps körül kellene járnia.

3.5 Race Driver: GRID

A teszt a detroit-i Short Circuit pályáján futott verseny elejét méri meg:

3.6 Rainbow Six: Vegas

A Vegas csak 1280x960-as felbontást támogat, 1280x1024-et nem, ezenfelül a Bioshockhoz hasonlóan a natív élsimítás-támogatás hiánya miatt 4xAA-s tesztek itt sem készültek.
A mérés a játék eleje táján készült, a Reach the Trainyard küldetésből elindultam hátrafelé, a közepesen nyitott terek irányába:

3.7 World in Conflict

Annak érdekében, hogy bármi értelmes következtetést le lehessen vonni a tesztekből, a Debris pyhsics opciót kikapcsoltam, enyhítve a CPU terheit.
A teszthez a beépített benchmarkot használtam:

… de persze meglepő lett volna, ha a WiC nem fut valahol platform-limitációba – itt is a piros oszlop szenvedte meg a dolgot az AA-mentes esetben, várhatóan kb. 2fps erejéig.

4. Elemzés

Első körben elkezdtem összehasonlítani a 2. fejezetben taglalt 4 lépés alapján a játékokat. Az így kapott %-os különbségek ugyan mutattak egy közös irányba, de nem voltak igazán jól ábrázolhatóak, ezért változtattam a módszeren – a teszteredményekből némi számolás után azt vizsgáltam, hogy az egyes órajel tartományok 50%-os növelésének milyen hatása van a teljesítményre. Az így készült grafikonok sokkal látványosabbak, ezért a lentiekben ezek kerülnek terítékre.

4.1 Referencia órajelek

Mielőtt az elemzésbe belemennénk, nézzük meg, mennyivel gyorsabb a 8800GT a 9600GT-nél a referencia-órajeleken:

Láthatóan érdemes volt elvégezni ezeket a teszteket is – azonos driver-verzió mellett a különbség lényegesen nagyobb, mint az anno divatosan hangoztatott 10%. A 12 esetből hatszor 20% felett van a 8800GT előnye, további 4 esetben 15% felett, és a 10%-ot csak egy esetben múlja alul, akkor is minimálisan. Viszont, sehol nem haladja meg a 30%-ot – azaz továbbra is messze vagyunk a 60%-kal magasabb shader-kapacitás kiaknázásától.

A következőkben a grafikonokon összesen 24 osztott sáv lesz látható – ezt mindenképpen több ábrára kellett szétbontani. Bár a noAA / 4xAA bontás adja magát, a fő szempont mégsem ez lett – az eredmények azt mutatták, hogy a 7 játék összesen kétféle mintát követ, a 4 „régebbi” az egyiket, és a 3 „újabb” a másikat (azért az idézőjelek, mert a Crysis a kora alapján nem, viszont a viselkedése alapján egyértelműen a „régebbi” kategóriába sorolható).

A grafikonokhoz magukhoz is érdemes egy kis magyarázatot fűzni. Mindegyik játék viselkedését két sáv mutatja be:
A felső sáv elemenként mutatja, melyik esetben mennyivel gyorsabb a 8800GT: az első szakasz a majdnem egyforma sebesség mellett fennálló 75%-os textúrázási sebességelőny hatása, a következő 3 pedig sorban a shader, a memória és a core sebesség 50%-os előnyének megnyilvánulása a teljesítményben.
Az alsó sáv mutatja, hogy a három tartomány kombinált gyorsítása milyen teljesítmény-növekedést hoz. Erre azért van külön szükség, mert a kombinált hatás nem a %-os értékek összeadásával áll elő (két 20%-os növekedés kombinációja nem 40%, hanem 44%), így az első sávról nem olvasható le ez az érték. A kombinált hatás számításakor a mindenhol jelenlévő extra 75%-os textúrázási teljesítmény „semlegesítésre” került.

4.2 Összehasonlító tesztek – első csomag

Az első 4 játék élsimítás nélküli tesztjei így festenek:

Mindegyik játékra jellemző, hogy a +75% textúrázó erő hatása relatíve nagy – ne feledjük, hogy a 9600GT textúrázási képességei már önmagukban is elég komolyak.
A következő közös vonás, hogy a shader-teljesítmény 50%-os megemelése nem hoz drámai gyorsulást – a F.E.A.R. és a Crysis 14%-a még csak-csak, de az Oblivion és a Vegas 8, ill. 4%-a nagyon kevés (a Vegas-ra még később külön kitérek).
A memória-sávszélesség 50%-os megnövelése hasonló képet mutat, mint a shader-teljesítményé – közepes javulás a F.E.A.R. és a Crysis esetében, és még ennél is kevesebb a másik két játékban.
Végül, amikor a ROP-ok, a textúrázók és az ütemező teljesítményét is megemeljük 50%-kal, akkor megugranak az fps-ek – a tapasztalt növekedés 18-25% közötti. Tekintettel arra, hogy ezeknél a játékoknál a textúrázók hatása nem elhanyagolható, ez talán nem is annyira meglepő.

Íme az élsimítással készült tesztek:

Igazából két fontos különbség van az élsimítás nélküli tesztekhez képest – a shader teljesítmény szerepe tovább csökkent, viszont a memória-sávszélesség hatása komolyan megnőtt, minden játék 20% körüli extra teljesítménnyel hálálja meg az 50%-kal szélesebb csatornát. A textúrázási sebesség, ill. a core tartomány elemeinek sebessége kb. ugyanolyan szerepet játszik, mint az előző esetben.

Összegzés – első csomag
Jól látszik, miért is nincs 50-60% differencia referencia órajeleken a két kártya között ezekben a játékokban – a core órajel tartomány szerepe minden játék minden beállításánál igen erős (a textúrázók mellett minden bizonnyal a ROP-ok valamelyik funkciója a szűk keresztmetszet), és általában a memória-sávszélesség hatása sem elhanyagolható – élsimítás nélül több esetben közepes, élsimítással minden esetben komoly. Mivel ezen a két területen a 9600GT valamivel erősebb, ill. megegyező teljesítményű a 8800GT-hez képest, egyáltalán nem meglepő, hogy referencia órajeleken a legnagyobb sebesség-különbség is 30% alatt van.
A kék színű sávok a fentieknek megfelelően mutatják is, hogy a 3 tartomány sebességének 50%-os emelésével elérhető az 50%-os teljesítmény-növekedés (a 8800GT platform-limitációja nélkül az Oblivion élsimítás nélküli esete is ezen a környéken lenne, a Vegas pedig némileg ufo, ld. következő bekezdés).

Külön érdemes foglalkozni a Rainbow Six: Vegas eredményekkel. A Vegas a mai napig az egyetlen játék, ahol a unified shaderes ATI kártyák jelentős előnyt bírnak felmutatni a hasonló kategóriás nVidia termékekkel szemben – ezt mindenki annak tudja be, hogy a Vegas ALU:TEX aránya a megszokottnál magasabb, és ezért képes élni az ATI VGA-k lényegesen magasabb számítási kapacitásával. Ez a teszt ennek pont az ellenkezőjét mutatja – a Vegas legjobban a nagy textúrázási kapacitást tűnik kedvelni, míg a shader-teljesítmény növelése nem hatja meg túlzottan. Ez első ránézésre nonszensznek tűnik, hiszen ATI oldalon a textúrázási kapacitás lényegesen kisebb – valószínűleg a játék által használt textúra-formátum környékén lehet a kutya elásva. Ha valakinek van pontos magyarázata, örömmel veszem, ha megírja a fórumban!

4.3 Összehasonlító tesztek – második csomag

Lássuk akkor az „új” játékok tesztjeit, először élsimítás nélkül:

Első ránézésre látható, hogy ez a három játék sokkal kevésbé érzékeny a textúrázási teljesítményre – a hatások marginálisak, a legnagyobb is csak 4%.
A shader-órajel 50%-os növelése változó befolyással bír – a World in Conflict esetében mindössze 10%, a másik két játéknál viszont 16 és 21% a kapott extra teljesítmény.
A memória-sávszélesség hasonló szerepet játszik, mint az első 4 játék esetében, mindegyik esetben valamivel 10% alatt hoz a konyhára az 50%-os emelés (a WiC a 8800GT platform limitje nélkül kicsit többet mutatna, talán 11-12%-ot).
Végül a ROP-ok, a textúrázók és az ütemező teljesítményének megemelése sem váltja meg a világot a 8-11%-os teljesítménynövekedéssel.

Élsimítással ezt kapjuk:

A GRID-nél egy kicsit megnőtt a memória-sávszélesség szerepe, de egyébként nagyon hasonlóan viselkedik, mint élsimítás nélkül.
A World in Conflict élsimítás mellett mind a memória-sávszélesség-, mind a core órajel tartomány egységeinek teljesítmény-növekedésére határozottan jobban reagál – ebben a tekintetben átmenetet képvisel az első csomag játékai és a GRID között.

Összegzés – második csomag
Bár az egyes tényezők hatása a játékok teljesítményére erősen más, mint az első 4 játék esetében, a végeredmény mégis hasonló – a referencia-órajeleken 15-25% közötti előnye van a 8800GT-nek, és az 50%-os fölény eléréséhez a memória-sávszélesség, ill. a core órajel tartomány komolyabb mértékű emelésére volna szükség. Az élsimításos tesztek mutatják is, hogy a 3 tartomány sebességének 50%-os emelésével elérhető az 50%-os teljesítmény-növekedés, érdekes módon élsimítás nélkül az újabb generációs játékokban csak 40%-ig jutunk – bár a konklúziót ez a 10%-nyi különbség nem befolyásolja, érdemes volna kideríteni az okát.

5. Konklúzió

Négy érdekes következtetést lehet levonni a fenti tesztekből és elemzésből.

Az első az, hogy bár az aritmetikai- (azaz shader-) teljesítmény hatása lassan, de biztosan növekszik, a mai napig nincs meghatározó szerepe – ezért jelen pillanatban felesleges a VGA-kat elsősorban a GFlops-ok alapján összemérni.
Másodszor, a textúrázási kapacitás szerepe folyamatosan csökken – ezzel persze nagy újdonságot nem mondtam, de a tesztek ezt a tendenciát is szépen kimutatták.
A harmadik konklúzió az, hogy ha a 8800GT-ben nem csak a shader- és a textúrázási kapacitás lenne 60-65%-kal nagyobb, hanem a memória-sávszélesség és a ROP-ok tudása is, akkor a kártya minden bizonnyal hozna legalábbis 50-55%-os teljesítmény-többletet a 9600GT-vel szemben – a 7 játék 12 beállításából 7 esetben kimutatható az 50% körüli növekedés, és az élsimítás nélküli Oblivion-teszt platform-limitációja nélkül ez a szám 8 lenne. Ebből viszont az is következik, hogy a 9600GT-ben semmiféle számottevő architektúrális újítás nincs a 8800GT-hez képest, egyszerűen csak a játékok teljesítményében fontos szerepet játszanak azok a tényezők, amiben a 9600GT a 8800GT-hez hasonlóan erős.

A negyedik következtetés már a GTX200-as szériával kapcsolatos. A fenti tesztek tükrében megválaszolható pár kérdés, amely a kártyák megjelenésekor eléggé rejtélyesnek tűnt: értelmet kap így mind az irdatlan memória-sávszélesség (az 512-bites memória-vezérlő kombinálva a létező leggyorsabb gDDR3 memóriával), mind a 32 ROP egység, hiszen a GTX280 shader-teljesítmény tekintetében több, mint 200%-kal áll a 9600GT felett, ehhez képest a ROP-jai még 32-en is „mindössze” 84%-kal gyorsabbak, a memória-sávszélesség „alig” 144%-kal több, textúrázásban pedig „csekély” 130%-kal jár előrébb. Ezen számok és a fenti tesztek alapján a 9600GT-hez mérve kb. 2-2.5-szeres sebességre lehet számítani a GTX280-tól, amit az Interneten fellelhető tesztek igazolnak is.

Végkövetkeztetésként levonható, hogy az nVidia teljesítmény szempontból rendkívül jót húzott, amikor a G94-es chipben megtartotta a G92 ROP-partícióját és memóriavezérlőjét, és csak a shader-tömbök és a textúrázók számát csökkentette. Bár a 9600GT megjelenésekor a köztudatba ivódott 10% körüli hátrány a 8800GT-vel szemben csak a driverek körüli kavarással volt elérhető, valós körülmények között végzett tesztekben is tisztességgel megállja a helyét a lényegesen magasabb GFlops értékekkel reklámozott kártyákkal szemben – a 8800GT 15-30%-kal, a 9800GTX 30-45%-kal, a HD4850 pedig 40-60%-kal gyorsabb nála, míg a fenti kártyák shader-teljesítménye sorban 1.6-szor, 2.1-szer és 4.9-szer (!) több.

6. Köszönetnyilvánítás

Elsősorban óriási köszönet enterlaci kollégának, akitől a 8800GT-t kaptam kölcsön a tesztek elvégzéséhez – talán nem kell nagyon magyarázni, miért nem jöhetett volna nélküle létre ez a teszt.

A Fraps számtalan mérés eszköze volt – köszönet érte beepa-nak! (www.fraps.com)

A tesztcsomag instrumentálásában, mint mindig, nélkülözhetetlen segítséget nyújtott az AutoIt v3 – áldassék érte Jonathan Bennett keze! (http://www.autoitscript.com/autoit3/)

Állandó inzertként pedig köszönet The DJ-nek és t|-|om-nak a képefeltöltő oldalért! (http://www.dj-beat.hu/phimage)

Hirdetés

Hirdetés

Copyright © 2000-2019 PROHARDVER Informatikai Kft.