N+1-edik processzorteszt

Írta: joghurt
processzor . benchmark
2008-06-06 10:23

Legutóbb egy durvának szánt processzorteszttel jelentkeztem. A visszajelzésekből már akkor kiderült, hogy lehetett volna még durvább is: sokan hiányoltak különböző processzorokat (én is). Ez eltelt időben sikerült befűtenem még néhány vasnak, és fórumtársak is besegítettek két szerverrel.

Frissítés: Sikerült egy TL-52-es Turiont megmérni. Ennek az eredményei közelebb állnak a várthoz. A TL-60-as kivettem - a kollégám meg majd derítse ki maga, hogy mitől ilyen hátrányos helyzetű a laptopja. Megmértem még egy egymagos Athlon64-et is.

Az első menetben leírt tesztek, a szigorúan kocka szemlélet, és a fűrészporszerűen száraz adatok nem változtak, a résztvevők annál inkább:

A mezőny mindkét irányban kibővült: a felsőházban új, 45 nm-es Intelek és egy Opteron, az alvégen pedig már-már muzeális darabok, hét évvel ezelőttről. Most már mindkét gyártótól van asztali, notebook és szerver processzor is a listában.

A táblázatba nem vettem fel, de fontos megemlíteni, hogy a két X2-es Athlon közül a 3800+ AM2 foglalatú volt, DDR2-800-as memóriákkal, míg a 4200+-os még S939-es, DDR400-akkal. Bár ez utóbbi processzornak magasabb az órajele, a memóriák és vezérlők közti eltérésnek később még lesz következménye. Az Opteron melletti DDR2-667-ek 4-4-4-12-re voltak húzva. A TL-52 és a T9300 mellé csak 666-os memóriák voltak szerelve 5-5-5-15-ös késleltetéssel, ez némileg visszafogta a teljesítményüket. Az E5440 mellett 667-es FBDIMM-ek jártak.

Volt, aki megkérdezte, hogy miért ilyen nyomi teszteket futtattam, miért nem valami közismertet. Nyers teszttel (memória-sávszélesség, MIPS stb.) tele a háló. Szintetikusból meg nehéz olyat találni, ami az összes rendszeren lefut. A szerver alaplapokon nincsen 16x PCIe foglalat (AGP sem), úgy meg nehéz valamelyik menő játékot ráereszteni. A tömörítős/videokódolós teszteknek is más szituációban van értelmük, mert azokat a sebességeket a háttértár sebessége is erősen befolyásolja. Itt most kifejezetten a processzorok (és szűk környezetük) sebessége érdekelt; de lehet, hogy valamikor majd mérek olyanokat is. És ne felejtkezzünk meg a kőkorszaki modellekről: a teszteknek Celeron 800-on is életképesnek kell lenniük, ami nem igazán egy HD ready gép.

Memória írás

A bemelegítő tesztről készült grafikonokon a sötétebb csík a Microsoft könyvtári változatát jelzi, míg a világosabb az optimalizáltabb verziót. Továbbra is FPS-ben van az összes eredmény, azaz minél nagyobb, annál jobb (még ha a lányok ezt szeretik is tagadni).

Az optimalizált változat a cache kikerülésével dolgozik (movqnt és társai), azaz megmondja a procinak, hogy a kiírt adatokra nem lesz szükség a közeljövőben (innen az assembly utasítások végén szereplő "nt" - non temporal), így ne fáradjon a cache-be, majd egy újabb lépésben a külső memóriába írással, ha jobban fekszik neki, egyből kirakhatja a buszra a memóriának. Olvastam róla, hogy bizonyos esetekben lassítást eredményezhet, ha a processzort erre kényszerítjük, és nem bízzuk rá, hogy a cache-ből saját ízlése szerint írja ki a külső memóriába. Megmértem így is, úgy is az összes tesztet, és a mi esetünkben segít az "nt", mert tényleg nem használjuk fel rögtön a számítások eredményét.

Nyers erő, ez a Canada Dry, meg a Core2 architektúra. Nincs is mit ragozni többet, kéremkapcsojjaki.

Mivel ez egy alap teszt, az eredmények könnyen összevethetőek más programokkal, és ellenőrizhetőek. Emlékeztetőül: az összes tesztben 32 bites, fullHD-s képekről van szó, és a kiírt értékek FPS-ben értendőek. Így például az E6850 eredményét átszámolva 34,4 Gibit/sec jön ki.

A Xeon E5440 sajnos nem az enyém, hogy kinyomozhassam, mit tud a Microsoft, amitől ennyivel gyorsabbak, illetve az optimalizált rutin miért maradt el a várakozásokhoz képest. Esetleg idővel majd kiderítem, mert én is olyan gyors akarok lenni. :)

Read-modify-write

Az írásnál órajel-arányos régi Xeonoknak nem tetszett ez a fajta üzemmód, be is húzódtak a lista aljára. Az eddig nagyjából egyforma AMD-k (Athlon64 és Opteron) közül is egyedül az AM2-es foglalatú oldotta meg a feladatot az Intelekhez hasonló arányú lassulással, a másik kettő sebessége közel felére esett vissza. Az eddig gyengélkedő T9300 itt már kezd valamit megmutatni magából.

Ami még izgalmas lehet itt, hogy az egyes processzorok arányában mennyit lassultak a csak íráshoz képest. Egyrészt van egy dupla mennyiségű adat (egyszer olvas, egyszer kiír). Másrészt meg ha most írunk valahová, az egy egész cache-vonalat érvényteleníthet, ami mondjuk a 64 byte-tal későbbi adatok olvasásánál lesz kellemetlen. Az arányokat tekintve azért nagyságrendi eltéréseket nem kapunk az egyes processzorok között, a múzeumtól eltekintve.

Másolás

A dupla adatmennyiség itt is megvan, mint az előző tesztben, de itt másik memóriaterületet írunk. A sötétebb csík ismét a Microsoft könyvtári változatát jelzi, míg a világosabb az optimalizáltabb verziót.

A másolásnál meg az Opteron villant egy kicsit, és mellette virul az AM2-es Athlon is. Az asztali Core-ok hozzák a formájukat. A notebook procik lemaradva egy blokkban, utánuk a régi Xeonok, lassú memóriával.

Alfázás

Itt a két fajta alfázást (rá- illetve össze-) összeraktam egy grafikonra, mert bár ez utóbbi természetesen jóval lassabb, közel ugyanazt a sorrendet hozzák a processzorok. A sötétebb csík itt a lassabb összealfázást, a világosabb rész a "csak" ráalfázás sebességét jelöli.

A favágó, lebegőpontos számítás az AMD-nek fekszik; még az őskori 1700+ is veri a mai drága Inteleket. A múltkori teszt óta bekerült két felsőházi szereplő viszont megmenti a nagyobbik processzorgyártó becsületét. Látszik, hogy másfél-kétszeresére turbózták fel a lebegőpontos végrehajtási sebességet.

De persze ki az a hülye, aki favágó módon számolja ezt, amikor előre kiszámított táblázatok segítségével sokkal gyorsabb? A második grafikon ezeket az eredményeket mutatja. Itt megint a címszámító egységek, a cache és az egész műveleti egységek számítanak. Ennek megfelelően az AMD-k teljesen lebőgnek, a Core2 meg rulezik.

Itt osztanám meg a nagyérdeművel az egyik fórumtárs összeesküvés-elméletét. Eszerint a Microsoft fordítói (amivel a nem optimalizált tesztek készültek a C kódból) erősen az Intel prociknak kedveznek - ezért ez a visszaesés az AMD részéről itt a végefelé. Abba nem folynék bele, hogy ez mennyire szándékos stratégia a nagy, gonosz megabirodalmak részéről, az azonban tény, hogy egyes kódrészleteket dissasemblálva (szép magyar szó) valóban lehetett olyasmit látni, amit az AMD-knek jobban fekvő módon is meg lehetett volna oldani. A következő ráérős időszakban lehet, hogy majd a különböző fordítókat hasonlítom össze ebből a szempontból.

Konklúziók

Az előző cikkhez képest bővült a versenyzők tábora. Ezekre a feladatokra a Core2 architektúra lényegesen jobb választásnak tűnik, és ezen belül is a minél magasabb órajel. Így fordulhat elő, hogy az E6850 desktop sokkal jobban a szívembe lopta magát, mint az E5440-es Xeon. És akkor még az egyes rendszerek áráról még nem is beszéltünk.

45 nm-es Intel prociból csak laptopot tudtam tesztelni, az viszont igen impresszív javulást hozott elődeihez képest.

Hirdetés

3 pénzügyi döntés, amit minden kisvállalkozónak érdemes átgondolnia az év végéig

PR Ahogy az év vége közeledik, itt az ideje, hogy egy pillanatra megálljunk és áttekintsük vállalkozásunk pénzügyi helyzetét. Ne hagyjuk, hogy az év utolsó hónapjai elússzanak a sürgető feladatok és elfeledett határidők között!