Gyorskeresés

Főmenü

MMX, SSE, SSSE3, mennyit ér a SIMD kiterjesztés?

Írta: frescho | 2009-12-14 00:41 Kulcsszavak: SIMD . MMX . SSE . ffmpeg . mplazer . linux

A K6-III fórumban felvetődött, hogy mennyit érnek az MMX, SSE... kiterjesztések. Ezek lényege, hogy egy utasítással tudjuk ugyanazt a műveletet végrehajtani. (Single Instruction, Multiple Data) Azok az alkalmazások profitálhatnak belőlük, amelyeknél ugyanazt az utasítást hajtják végre nagy adatmennyiségen. Ezek jellemzően vektoriális, mátrix műveletek. Ilyen programok nagyon sok területen előfordulnak. Pár példa a teljesség igénye nélkül:

multimédia (videó és hang lejátszás, átkódolás, képfeldolgozás)
titkosítás (SSL, GPG...)
grafikai-3d (játék, ray tracing)
mesterséges intelligencia (játékok, üzleti szimuláció)

Ezekből gyorsan az elsőt tudtam tesztelni az ffmpeg-mplayer páros lefordításával. Mind a kettőt lefordítottam több configuration paraméterrel. A nevek elég egyértelműek, az MMX-hez nagyvonalúan hozzácsaptam a 3DNow utasításokat is. Egy 2.8GHz-es Phenom II volt a gépben - 4G rammal - aminek egy magját használtam fel.

Az MPlayerrel egy Samsung demót játszottam le, amit előtte 1080p mkv formátumúvá konvertáltam. A film jellemzői: 70.4 sec, 24fps, 10Mb/s mplaye, h264. A video lejátszáshoz szükséges időt mértem benchmark módban. Valós esetben a hang is nyomná a processzor lelkét. Command line: mplayer -benchmark -vo null -nosound test.mkv SIMD nélkül még egy mai modern CPU sem boldogul egy HD videóval.

MPlayer HD lejátszás [sec]

Az ffmpeggel egy 1080i (mpeg2 30fps, 65Mb/s) demót kódoltam át 720p noninterlaced mpeg4 8Mb/s formátumba. Itt is egy szállal terheltem a processzort. A 6:06 [perc:másodperc] hosszú videót alapesetben 22:34 alatt sikerult átrágni. Ezzel szemben 3DNow és MMX bevetésével az idő kevesebb, mint kétharmadára csökkent. Az SSE további pár százalékot jelentett, de a javulás nem annyira látványos, mint előző esetben.

ffmpeg 1080i to 720p kódolás [min:sec]

Azt hiszem ezek után nem lehet megkérdőjelezni a SIMD fontosságát. Az újabb kiterjesztések már nem hoznak akkora javulást, mint az MMX anno. Az egy jó kérdés, hogy a további pár százalékért megéri-e tovább terhelni az x86 világát. Vannak, akik szerint nem és a CPU gyártók is lassan változtatnak az irányon. Egyelőre, ha jól tudom, lassan jön az SSE5. Nem hiszem, hogy optimális kódot állítanak elő a compilerek több, mint ezer utasítás mellett. Véleményem szerint érdemes lenne kigyomlálni a nagyon elbonyolított utasításkészletet és kicsit visszamenni RISC irányba. Az egyszerűbb proci kissebb magot is jelent, amiből többet, olcsóbban, gyorsabbat lehet ugyanakkora méretben gyártani. Small is nice. Az SSE feladatait pedig át lehetne terhelni a GPU-ra. Több jel, mint a Fusion és a Larrabe is ebbe az irányba mutat. Majd meglátjuk, hogy mit hoz a jövő.

RSS: iratkozz fel!

Hozzászólások (9)

Hozzászólások

(#1) Metalfan

Új
Válasz
Privát
2009-12-14 01:02:37

Metalfan
senior tag

Érdekes teszt érdekes eredményekkel. Csak MMX-re is kíváncsi vagyok, hogy 3DNow! nélkül hogy boldogulna a proci. Szerintem az MMX, SSE bőven elég lenne a prociknak, a többit meg optimalizálják ezekre a kódokra, vagy egyáltalán: optimalizáljanak. Amikor a sok fejlesztő lusta jól megírni a szoftvert, akkor nem a hardvert kéne az optimalizálatlan progikhoz igazítani, mert ettől nem fognak jobb belátásra térni a programozók. Inkább fordítva kellene tenni. Legfrissebb példám az 18 Wheels of Steel: Extreme Trucker nevű játék, amelyik egy belépőszintű videokártyán is gond nélkül kellene fusson (akár élsimítással is), de egy 8800 GTS-en is szaggat néha, a Fraps 2 és 85 között ugrál elég random módon. De van még jópár hasonló játék/program, ami elég szarul lett megírva.

(#2) DarthSun

Új
Válasz
Privát
2009-12-14 01:11:25

DarthSun
nagyúr
LOGOUT blog

Tanulságos.Azt gondoltam volna, hogy valamennyire skálázódott az egyre újjabb utasításkészletek teljesítménynövelő hatása.

(#3) Metalfan válasza DarthSun (#2) üzenetére

Új
Válasz
Privát
2009-12-14 01:25:54

Metalfan
senior tag

Valószínűleg más programoknál jobban előjön a hatása, nem gondolom, hogy mindegyiket a videókódolásra hegyezték ki.

(#4) #95904256

Új
Válasz
Privát
2009-12-14 06:43:19

#95904256
törölt tag

Köszönjük a cikket!

Remélem sikerült meggyőzni vele pár kétkedőt, hogy van kihatása a teljesítményre a SIMD utasításkészleteknek. De szerintem jó lett volna külön is kipróbálni az MMX és a 3DNow! hatását. ( Az MMX integer, a 3DNow! lebegőpontos utasításokat takar. )

Valamint nem jön be az ezer utasítás link.

[ Szerkesztve ]

(#5) zoltanz

Új
Válasz
Privát
2009-12-14 07:56:35

zoltanz
nagyúr

Köszönjük, érdekes írás. Szerintem fontos, hogy újabb ilyen kiterjesztések kerűljenek a procikba, ha nem is várható jelentős előny tőlük egyből.

Manapság egy előnye van ha nem vagy szegény, színvonalasabb ellenségeid lehetnek

(#6) frescho válasza Metalfan (#1) üzenetére

Új
Válasz
Privát
2009-12-14 09:11:09

frescho
addikt

A tesztet ki akarom egesziteni, csak keresnem kell valamit, ami hajlando lefordulni minimum 4 modon: i386, mmx, sse, sse2

Metalfan: Nincs teljesen igazad. Az teny, hogy csak lapatoljak a kodot a programozok. Az optimalizacioval nem sokat torodnek, de a compilereknek pont ez lenne a dolga. A gcc-t en csak feluletesen ismerem, csak 1-2 tucat kapcsolojat hasznalom a nehany tucat/tucatbol. Ajanlom figyelmedbe a -O1, O2, O3, illetve --build=i386-linux-gnu kapcsolokat. P4-re optimalizalva peldaul a hosszu pipeline-hoz igazodva "kibontja" a folosleges ciklusokat. A kevesbb ugrasnak hala gyorsabb lesz a kod, ugyanakkor nagyobb is. Viszont a compiler sem mindenhato, azt is emberek irjak es az ujabb es ujabb kiterjesztesek nem teszik konnyuve a dolgukat.

Akosf: link javitva. Sajnos nem fordult le magaban csak MMX-el a libavcodec.

https://frescho.hu

(#7) frescho

Új
Válasz
Privát
2009-12-14 13:27:53

frescho
addikt

ssh-val is kiprobaltam. Nincs ertelme boviteni a bejegzyest. i386 eseten 89.1MB/s a file atviteli sebesseg, MMX-el 95.8, sse2-vel 96.6. A ket veglet kozott kb 10% van. Mivel lenne erdemes meg tesztelni?

https://frescho.hu

(#8) #95904256 válasza frescho (#7) üzenetére

Új
Válasz
Privát
2009-12-14 13:47:14

#95904256
törölt tag

Szerintem valamiféle fraktál generátorral lehetne jól lemérni, hogy melyik utasításkészlet mennyit is jelent. De sajnos nem ismerek ilyen programot. Meg az is igaz, hogy a kézzel optimalizált verziók lennének a legalkalmasabbak az összehasonlításra. Különben a fordító "képességei" erősen befolyásolnák az eredményt.

[ Szerkesztve ]

(#9) frescho válasza #95904256 (#8) üzenetére

Új
Válasz
Privát
2009-12-14 13:51:30

frescho
addikt

Povray-t akartam, de nem fordul le rendesen par CPU beallitassal.

https://frescho.hu

További hozzászólások megtekintése...

frescho oldala https://logout.hu/blog/frescho/index.html

frescho top 5 címlapos írása

frescho top 10 blogbejegyzése

Percről percre

Az Apple megszerezné a klubvilágbajnokság közvetítési jogait

A vállalat ezért irgalmatlan pénzt fizetne a FIFA-nak, és ezzel rajzolná át az online streaming platformok háborújában a frontvonalakat.
Mindent megtudtunk az új Nokia 3210-ről

Részletes képek, specifikációk és euróban megadott ár is van a legendás modell újraélesztett verziójához.
Bírságot fizet a Razer

A cég elég olcsón megússza az ügyfelei félrevezetését, de az üdvözlendő, hogy az Egyesült Államok hatóságai nem siklottak el az ügy felett.
Képeken az egyik kameráját elvesztő Sony Xperia 10 VI

Részletes anyag került fel az internetre a Sony idei középkategóriás telefonjáról, három helyett két hátlapi kamera várható.
Mozgásban az F1 24

A Forma 1 versenyek rajongói hamarosan végre belevethetik magukat az idei epizódba.

Lunar Lander Beyond teszt

Nagyon sok évtizeddel az eredeti Lunar Lander megjelenése óta ismét ezen a címen jelent meg Atari logóval egy játék. Vajon mennyit javult a játékdesign a hetvenes évek óta?
Sokat fogyaszt az AI, atomot

Az AI-t kiszolgáló adatközpontok olyan nagy energiaigénnyel bírnak, hogy egyre több atomenergiára van szükség.
Kipróbáltuk az LG kompakt 4K projektorát, a CineBeam Q-t

A szokatlan külsejű, kisméretű vetítő webOS okosrendszert is kapott.
A bitcoin-Jézus, börtönben

Amerikai adókerülés vádjával, Spanyolországban tartóztatták le a bitcoin-Jézusként ismert Roger Vert.
Minden gyerek mobilozik, elég

Vissza akarják szorítani a gyerekek és tinédzserek közösségi média- és okostelefon-használatát.
Apple CTF iPadOS-re is

A DMA értelmében az iPadOS-t is kapuőrnek mondta ki az Európai Bizottság, így erre is technológiai alapdíjat vet ki az Apple.
OnlyFans, pornó, gyerekek

Az életkorhitelesítési intézkedések miatt kezdenek vizsgálatot a britek az OnlyFans ellen.

Lapcsaládunk:

Gyorskeresés

Főmenü

MMX, SSE, SSSE3, mennyit ér a SIMD kiterjesztés?

Hozzászólások

További hozzászólások megtekintése...

frescho oldala https://logout.hu/blog/frescho/index.html

frescho top 5 címlapos írása

frescho top 10 blogbejegyzése

Percről percre

Az Apple megszerezné a klubvilágbajnokság közvetítési jogait

Mindent megtudtunk az új Nokia 3210-ről

Bírságot fizet a Razer

Képeken az egyik kameráját elvesztő Sony Xperia 10 VI

Mozgásban az F1 24

Lunar Lander Beyond teszt

Sokat fogyaszt az AI, atomot

Kipróbáltuk az LG kompakt 4K projektorát, a CineBeam Q-t

A bitcoin-Jézus, börtönben

Minden gyerek mobilozik, elég

Apple CTF iPadOS-re is

OnlyFans, pornó, gyerekek

Portáljaink

Céginfó

Ajánlatok

mobil nézet

Támogatóink