Hirdetés

2024. május 4., szombat

Gyorskeresés

Hozzászólások

(#101) Jack@l válasza ukornel (#99) üzenetére


Jack@l
veterán

De akkor mi értelme az apunak, ha úgyis raksz mellé erős kártyát adatpárhuzamos appokhoz? Még mindig a felhasználói programok pár százalékáról beszélünk amúgy, a többi progi mind cpu-n fut csak. Ott meg megint elvérzik a gyengécske apu. (már amelyikbe "erős" gpu részt pakolnak)

[ Szerkesztve ]

A hozzászólási jogosultságodat 2 hónap időtartamra korlátoztuk (1 hsz / 10 nap) a következő ok miatt: Az ÁSZF III 10/8. pontjának megsértése - trollkodás - miatt. Többször és többen is kértek már, hogy hozzászólás írásakor használd a linkelés funkciót, mert ennek elmaradása sokak számára zavaró.

(#102) hugo chávez válasza #06658560 (#90) üzenetére


hugo chávez
aktív tag

Nagyjából én is ezt mondom, vagyis a "sikeressége" azon múlik, vajon lesznek-e olyan "real-world" feladatok (vagyis inkább mennyi), amiknél valós előnyt jelent egy ilyen végrehajtási mód. És ez az, ami legkésőbb úgy 2020-ra egyértelműen ki is fog derülni szerintem.
Az első bekezdést a HSA megvalósítására értettem technikai oldalról, vagyis, hogy ha van alkalmazás, ami profitálna belőle, de a compilerek és a finalizerek nem megfelelő minőségűek, akkor ezen is bukhat. Ez utóbbiak felelősek ugye az adott feldolgozóegység natív ISA-jára lefordítani a HSAIL kódot, ezért nagyon komoly a jelentősége, hogy jók legyenek.
Egyébként Abuval arról is beszéltünk régebben az Intel kapcsán, hogy ugye ők hivatalosan nem támogatják (persze ez még változhat) a HSA-t. Hardveresen pl. a Skylake már megfelelne a követelményeknek, viszont így nem lesz Intel által felügyelt/írt finalizer az IGP-ikhez. Bár az architektúra dokumentációja elvileg nyílt, szóval bárki írhat hozzá, de ha ír is, annak a minőségére meg pláne nem lesz garancia.

[ Szerkesztve ]

"sajnos ez a beszélgetés olyan alacsony szintre jutott, hogy a továbbiakban már nem méltó hozzám" - by Pikari

(#103) #06658560 válasza lenox (#100) üzenetére


#06658560
törölt tag

Melyik LGA2011-es i7 bír iGPU-val, hogy APU lehessen?

"Az lenne az ertelme, hogy konnyebb lenne programozni, es gyorsabb lenne, mint egy mezei cpu."

Szerintem az előbb vezettem le, miért nem lesz könnyebb soha a büdös életben programozni.

[ Szerkesztve ]

(#104) #06658560 válasza ukornel (#99) üzenetére


#06658560
törölt tag

"Ennyi foglalatban (2CPU + 4cGPU) az APUk is komoly összteljesítményt adhatnak le."

Csakhogy ennyi foglalat APU esetében a 2 CU-t jelenti. Amennyiben mellé teszel még 4 dGPU-t, vagy egyéb koprocesszort, az már nem APU. Márpedig egy foglalatnyi helyre nem fog soha beférni az akár egy top CPU+ akár 4 top dGPU számítási teljesítmény.

"Ez persze csak az elméleti csúcsteljesítményre vonatkozik, mert, ahogy magad írtad korábban, ezeknél a memóriamásolások fogják vissza a teljesítményt. "

Itt jön képbe a feladathoz igényelt hardver. Ha "kevesebb, jól párhuzamosítható, sok memóriamásolással járó a feladat, akkor megéri az APU-ra igazítani. Ha a memóriamásolások mennyisége, jellege olyan, hogy elfér egy GPU memóriájában, ritkán kell memóriamáslást alkalmazni (mert egyszer betölti a GPU memóriájába, majd azzal az adatmennyiséggel elvan egy jó ideig, s más adathoz nem kell nyúlnia), akkor a CPU+dGPU rendszer a nyerő. Amikor pedig sok a memóriamásolás és marha nagy számítási kapacitás is kell, akkor jön a HPC, render farm, stb. megoldások clusterekkel, minden egyéb mókával.

(#105) ukornel válasza Jack@l (#101) üzenetére


ukornel
aktív tag

"De akkor mi értelme az apunak, ha úgyis raksz mellé erős kártyát adatpárhuzamos appokhoz?"
Miért raknánk mellé bármit az adatpárhuzamos appokhoz, ha már ott van a gyorsító (IGP) a lapkán??? Hogy újra szívhassunk az adatmásolgatásokkal? :F

"Még mindig a felhasználói programok pár százalékáról beszélünk amúgy, a többi progi mind cpu-n fut csak. Ott meg megint elvérzik a gyengécske apu."
Az a baj, hogy a fejekben mintha ez lenne: APU = AMD proci, gyengécske Bulldozer architektúrájú magokkal.
Felejtsd el ezt a képet! Valójában az i7 is az, csak az Intel nem használja ezt a terminológiát. Képzelj el egy i7-et és egy R9 380-nal egy lapkán - nem mondanám gyengécskének. Ez 14 nanón lehetséges.

#100 lenox
Ez egy értelmes és reális megközelítés.

#104 Kopi31415
"Csakhogy ennyi foglalat APU esetében a 2 CU-t jelenti."
Úgy érted: CU=CPU?

"Amennyiben mellé teszel még 4 dGPU-t, vagy egyéb koprocesszort, az már nem APU."
Nem tennék mellé dGPU-t, annak semmi értelme. Ezért kár APU-t fejleszteni.

"Márpedig egy foglalatnyi helyre nem fog soha beférni az akár egy top CPU+ akár 4 top dGPU számítási teljesítmény."
Persze, hogy nem fog. Az esetek többségében nem is kell.
Te egy olyan rendszerről beszéltél, amiben egy-két CPU és négy dGPU van, mindegyik a saját hűtésével, és ezek kommunikálnak egymással valahogy. Ezek helyébe képzelek hat APU-t, mindegyiket a saját hűtésével, és ezek is kommunikálnak egymással. Így van ugyanannyi lapka, hasonló fogyasztás, hasonló hűtőteljesítmény és hasonló számú számolóegység.

[ Szerkesztve ]

(#106) Jack@l válasza ukornel (#105) üzenetére


Jack@l
veterán

Mi baj az adatmásoplással? Szükséges rossz, de ha a számítás pár százalékát veszi csak el időben?
Apu-n meg ott van a ddr3-4, ami baromi lassú egy dgpuhoz képest, az sztem sokkal nagyobb overhead mint a feladatok átküldése a kártyára, meg a végeredmény visszamásolása.
Főleg hogy többször annyi mag van egy dgpu-n is, mint az apu-n. (több kártyás rendszereket már meg se említem, most is egy alap gépbe be lehet pakolni legalább 4 kártyát, a profibbakba meg többször ennyit)
Az apu-k sikerességéhez két dolog kéne: hbm2 integrálva alaplapra, baromi sok, legalább 12-16 GB, és sokkal nagyobb igp rész, hogy már egy középkategóriás kártyát megüssön. Akkor, de csak akkor érné meg használni játékra meg compute-ra is. (amíg ez nem teljesül, addig gyerekjáték az egész, egy műanyag gagyi kínai fajta PC-ben)

[ Szerkesztve ]

A hozzászólási jogosultságodat 2 hónap időtartamra korlátoztuk (1 hsz / 10 nap) a következő ok miatt: Az ÁSZF III 10/8. pontjának megsértése - trollkodás - miatt. Többször és többen is kértek már, hogy hozzászólás írásakor használd a linkelés funkciót, mert ennek elmaradása sokak számára zavaró.

(#107) ukornel válasza Jack@l (#106) üzenetére


ukornel
aktív tag

"Mi baj az adatmásolással? Szükséges rossz, de ha a számítás pár százalékát veszi csak el időben?"
"Ha"? A feladatok egy részénél lehet, hogy csak ennyit vesz el, de mi van a memóriaigényes, vagy az olyan feladatokkal, ahol sűrűn váltják egymást a jól párhuzamosítható, és a késleltetésre érzékeny részfeladatok? Lásd a #95-ösbeli példákat. Ott az idő nagy része másolgatással telik :(((

"Apu-n meg ott van a ddr3-4, ami baromi lassú egy dgpuhoz képest"
Nagy erőkkel dolgoznak az ügyön (HBM, HMC, Wide I/O).

"sztem sokkal nagyobb overhead mint a feladatok átküldése a kártyára, meg a végeredmény visszamásolása."
Azért a PCIe busz sebességét, látenciáját ne próbáljuk már a 2-4 csatornás rendszermemóriájáéval összehasonlítani :N

"Az apu-k sikerességéhez két dolog kéne: hbm2 integrálva alaplapra, baromi sok, legalább 12-16 GB, és sokkal nagyobb igp rész, hogy már egy középkategóriás kártyát megüssön"
Baromi sok alatt én nem 12-16 GB-ot értenék, ha compute.ról van szó, hanem ennél sokkal többet.
A HBM2-nek pedig nem alaplapra, hanem interposer-re integrálva lenne értelme, mint a Fury-n, a sávszélesség és a fogyasztás miatt.

"és sokkal nagyobb igp rész, hogy már egy középkategóriás kártyát megüssön"
Igen, és biztos vagyok benne, hogy lesz ilyen; lásd #105.

[ Szerkesztve ]

(#108) #06658560 válasza ukornel (#105) üzenetére


#06658560
törölt tag

"Miért raknánk mellé bármit az adatpárhuzamos appokhoz, ha már ott van a gyorsító (IGP) a lapkán??? Hogy újra szívhassunk az adatmásolgatásokkal? "

Esetleg azért, mert kevés a számítási kapacitás?

"Az a baj, hogy a fejekben mintha ez lenne: APU = AMD proci, gyengécske Bulldozer architektúrájú magokkal.
Felejtsd el ezt a képet! Valójában az i7 is az, csak az Intel nem használja ezt a terminológiát. Képzelj el egy i7-et és egy R9 380-nal egy lapkán - nem mondanám gyengécskének. Ez 14 nanón lehetséges."

Melyik LGA 2011 foglalatos i7 APU?
Az APU egyik fontos eleme lenne a megosztott memória, ami tudtommal intel esetén még lényegesen visszafogottabb mértékben létezik, mint az AMD oldalán, így APU technológiát értelmezve az AMD a cutting edge.

"Persze, hogy nem fog. Az esetek többségében nem is kell"

Honnan tudod, hogy nem kell? Játékprogramot akarunk HSA-val írni, Hello World szinten, vagy valami értelmeset is?

" Ezek helyébe képzelek hat APU-t, mindegyiket a saját hűtésével, és ezek is kommunikálnak egymással."

Akkor nem fogalmaztál elég egyértelműen. Másik probléma, amint több APU-t raksz össze, máris kezd jönni a memóriamásolási probléma- minimum a Cachek szintjén, ami már négy egység esetén is jó kalamalkát okozhat a kód oldalán. Az erőforrás-menedzsment szempontjából meg pláne.

(#109) lenox válasza #06658560 (#103) üzenetére


lenox
veterán

Nyilvan a 1155/1150-es i7-ek az apuk, ezekbol hangyafasznyival tobb van, mint 2011-esbol. Vagy ugy ertetted, hogy csak a 2011-es i7-ek rugjak szet az apukat, egy 4770 (+dgpu) nem?

Melyik levezetesre gondolsz? Lehet amugy, hogy tok masra gondolunk, en pl. arra gondolok, hogy cpu+dgpu-hoz kepest lehetne konnyebb programozni. Pl. nekem egy cuda-szeru api megfelelne, annyi plusszal, hogy nem lenne kulon device es host memory, csak memory es emiatt nem is kene mindig kuldozgetni a buszon az adatot. Ezt nem lenne tul nehez megcsinalni es maris konnyebb lenne programozni, szoval ez kb. bizonyitja hogy lehetseges olyan scenario, amiben konnyebb apuval programozni mint cpu+dgpu-val.

(#110) ukornel válasza #06658560 (#108) üzenetére


ukornel
aktív tag

"Esetleg azért, mert kevés a számítási kapacitás?"
Ahha. Tehát oda lyukadunk ki, hogy a dGPU-s compute-nak mindig lesz létjogosultsága APU-k mellett is abban a szűk szegmensben, ahol nincs nagy memóriaigény, nincs intenzív adatmozgatás a kártya és a CPU/rendszermemória között, és a teljesítményigény a legerősebb APU teljesítménye és annak max. kétszerese között van. (Mert ugye ez alatt ott lenne az APU, fölötte meg úgyis klaszter kell, mert egy dGPU-nak nem lesz több, mint kétszer nagyobb számítási kapacitása, mint egy APU-nak - hasonló lapkaméret, architektúra, gyártástechnológia esetén). Ez elég szűk rétegnek tűnik - az a kérdés, hogy pont egy szűk réteg részére fejlesztenek-e majd az elefánt méretű GPU-kat?
Ha tehát "kevés a számítási kapacitás", magad írtad, hogy "[...] akkor jön a HPC, render farm, stb. megoldások clusterekkel, minden egyéb mókával."

"Honnan tudod, hogy nem kell? Játékprogramot akarunk HSA-val írni, Hello World szinten, vagy valami értelmeset is?"
Lásd a föntieket.

"Melyik LGA 2011 foglalatos i7 APU?"
Hogy jön ide az LGA2011?? Eddig szó sem volt foglalatról, ne kezdjünk már el csúsztatgatni.
Xeon szerverprocik között ott vannak az Iris Próval kitömött E3-12xxL v4 procik 1150-ös foglalatba.

"Akkor nem fogalmaztál elég egyértelműen. Másik probléma, amint több APU-t raksz össze, máris kezd jönni a memóriamásolási probléma- minimum a Cachek szintjén, ami már négy egység esetén is jó kalamalkát okozhat a kód oldalán. Az erőforrás-menedzsment szempontjából meg pláne."
Igazad van, nem fogalmaztam egyértelműen.
Ha megnézed, onnan indult a történet, hogy egy szál APUt hasonlítottál össze egy komplett kétfoglalatos, quadGPUs rendszerrel. Ez így nem túl fair összevetés, viszont egyes genyó feladatokban, ahol a bika rendszered adatmásolgatásokkal tölti az idejét, az egy szál APUt még mindig nem tudja "agyonverni"!
Az az érzésem, hogy az említett ipari szimulációk jelentős része (szó volt arról korábban, hogy az RTM algoritmusokat a fentiek miatt nem gyorsítják GPUval) pont ilyen genyó feladat -erősítsen vagy cáfoljon valaki, akinek van több tapasztalata- márpedig ezekben óriási pénz van.

[ Szerkesztve ]

(#111) #06658560 válasza lenox (#109) üzenetére


#06658560
törölt tag

"Vagy ugy ertetted, hogy csak a 2011-es i7-ek rugjak szet az apukat, egy 4770 (+dgpu) nem?"

Isten igazából nekem az i7 az bizony az LGA 2011, a többit valahogy mindig kihagyom onnan. Tehát pont annyira az én hibám, ahogy a tied, másik felét vettük a néven belül a csoportnak.

"Melyik levezetesre gondolsz?"

Arra, amelyikben leírtam, milyen felépítés mellett mi a probléma, s miért nehéz rá fejleszteni.

"Pl. nekem egy cuda-szeru api megfelelne, annyi plusszal, hogy nem lenne kulon device es host memory, csak memory es emiatt nem is kene mindig kuldozgetni a buszon az adatot."

Szerintem ez ott hal meg, hogy több lesz a memóriakérés a másik egységbe, a PCI-e busz terhelése nő, amit csak ront, hogy időzíteni is kell okosan, mi mikor melyik memóriához nyúljon. Eltérő memóriák, sebességek, sávszélességek, s nem tudod adott adat épp melyikben van. Szerintem ez végképp nem adna sebességbeli előnyt semmit, csak hátráltatna. Akkor lenne működőképes, ha a VGA-k saját memóriáját teljesen megszüntetnénk.

(#112) lenox válasza #06658560 (#111) üzenetére


lenox
veterán

Szerintem ez ott hal meg, hogy több lesz a memóriakérés a másik egységbe, a PCI-e busz terhelése nő, amit csak ront, hogy időzíteni is kell okosan, mi mikor melyik memóriához nyúljon.

Apurol beszelunk, nincs masik memoria, csak egy. Sima cpunal is kell idoziteni a magok kozott, hasonload kellene megoldani ezt is.

(#113) #06658560 válasza lenox (#112) üzenetére


#06658560
törölt tag

APU-ról beszélünk, viszont nem simán az alaplapon, hanem PCI-e-n keresztül párat bekötve. Úgy meg az alaplapon levő rendszermemóriát elérni nem ugyanaz egyik, vagy második-n-edik APU-nak. Ahogy ha valamelyik APU cache-éből kell adat, pláne kalandos.

(#114) #06658560 válasza ukornel (#110) üzenetére


#06658560
törölt tag

"Ahha. Tehát oda lyukadunk ki, hogy a dGPU-s compute-nak mindig lesz létjogosultsága APU-k mellett is abban a szűk szegmensben, ahol nincs nagy memóriaigény, nincs intenzív adatmozgatás a kártya és a CPU/rendszermemória között, és a teljesítményigény a legerősebb APU teljesítménye és annak max. kétszerese között van."

Hülyeséget bes´zelsz itt össze vissza. Nincs nagy memóriaigény: Titan X és rokonlelkek. Adatmozgás: így ha nem nonstop kell adatot mozgatni, hanem kevesebb alkalommal, sokkal kisebb a veszteség annak mozgatásával, mint amennyit nyerni lehet a lényegesen gyorsabb számítással. Az aláhúzott gondolat milyen hülyeségként szökkent a fejedbe? Melyik APU tud egy Titan X, Fury X számítási teljesítmény felét? És ezekből négy számítási teljesítménye felét?

"Ez elég szűk rétegnek tűnik - az a kérdés, hogy pont egy szűk réteg részére fejlesztenek-e majd az elefánt méretű GPU-kat?"

Az, hogy te szűk rétegnek látod, még messze nem az, lényegesen vastagabb, mint egy APU-val bohóckodni jelenleg, bármelyiket is nézve a sok közül.

"Ha megnézed, onnan indult a történet, hogy egy szál APUt hasonlítottál össze egy komplett kétfoglalatos, quadGPUs rendszerrel. Ez így nem túl fair összevetés, viszont egyes genyó feladatokban, ahol a bika rendszered adatmásolgatásokkal tölti az idejét, az egy szál APUt még mindig nem tudja "agyonverni"!"

Nem, onnan indult a történet, hogy pár embernek fixa ideája, hogy az APU-k valamikor majd teljesítményben felveszik a versenyt a CPU+dGPU rendszerekkel, s a memóriakezelés miatt agyon fogják verni. Viszont APU terén a lehetőségek jelenleg ott állnak, hogy maximum kétutas intel megoldás, míg a CPU+dGPU esetén kétutas intel+akár négy, vagy több coprocesszor. Amit soha a büdös életben nem lehet majd utol érni, csak ha mindegyik coprocesszor helyére is APU kerül, aminek a memóriakezelése lesz majd probléma. A fizikai korlátokat nem szabad figyelmen kívül hagyni.

"Hogy jön ide az LGA2011?? Eddig szó sem volt foglalatról, ne kezdjünk már el csúsztatgatni."

Nem csúsztatás, szerinted az LGA2011 foglalatos intel CPU-k mik? APU-k, vagy kulcstartók?

(#115) lenox válasza #06658560 (#113) üzenetére


lenox
veterán

En biztos nem beszelek PCIE-n keresztul bekotott tobb apurol. Elso korben egy apurol, masodik korben tobb utas rendszerrol, de te egy mai tobbutas rendszernel hallottal olyat, hogy PCIE-n keresztul masolsz adatot? Nyilvan nem, a tobbutas apunal sem akarna senki ilyet csinalni. Ugyanugy kell megoldani, mint a mostani tobbutasoknal.

Ezt az apu erosebb, mint 2 xeon + 4 dvga dolgot el kene felejteni. Arra kene koncentralni, ami a valosag, hogy a sima cpu-t kiokositjuk parhuzamos feldolgozasra optimalis magokkal, es akkor jol parhuzamosithato feladatoknal tud gyorsabb lenni.

[ Szerkesztve ]

(#116) ukornel válasza #06658560 (#114) üzenetére


ukornel
aktív tag

"Nincs nagy memóriaigény: Titan X és rokonlelkek."
Dehogy nincs, példát is hoztam (ipari szimulációk).
Nem véletlenül igyekeznek a compute kártyákra lehetőség szerint több memóriát pakolni (bár ez GRRD5-tel nem olyan egyszerű), pl az nVidia a K80-ra 24GB-ot zsúfolt!

"Adatmozgás: így ha nem nonstop kell adatot mozgatni, hanem kevesebb alkalommal, sokkal kisebb a veszteség annak mozgatásával, mint amennyit nyerni lehet a lényegesen gyorsabb számítással."
Amit írsz, az tökéletesen igaz. Csak az a "ha" ne volna ott...

"Melyik APU tud egy Titan X, Fury X számítási teljesítmény felét?"
Most megpróbálsz úgy csinálni, mint aki nem tud olvasni? Itt ugye az APU-król, mint potenciálról, elvi lehetőségről beszélgetünk, már a #105-ösben leszögeztem, hogy ne ragadjunk le az AMD jelenlegi APU-inál. Az idézett rész (#110) utáni zárójeles részben pedig ott van pontosan, hogy mire gondoltam: hasonló lapkaméretű (azonos architektúra+gyártástechnológia) APUra!
Ha csinálnának egy böszme nagy 600mm2-es APUt, arra jó eséllyel már 28 nm-en is ráférne mondjuk 8 CPU mag és 1500-2000 számoló.

"Az, hogy te szűk rétegnek látod, még messze nem az, lényegesen vastagabb, mint egy APU-val bohóckodni jelenleg, bármelyiket is nézve a sok közül."
Azt írod, "jelenleg". De itt alapvetően nem a pillanatnyi, már megvalósult fejlesztésekről beszélünk, hanem arról, van-e értelme a HSA-nak, vagy úgy általánosabban a heterogén programozásnak. A cikk címében: "[...] a HSA-s jövőkép [...]".
Másrészt különösebb érvek nélkül hagytad a példáimat, ez nem igazán vitte előre a beszélgetés fonalát.

"Nem csúsztatás, szerinted az LGA2011 foglalatos intel CPU-k mik? APU-k, vagy kulcstartók?"
Onnan indult a történet, hogy azt írtam, potenciálisan egy i7+R9-380 erejét lehet az APU-koncepció mögé képzelni; ezzel ugyanazt akartam érzékeltetni, amiről az előző bekezdésben írtam. Erre te megkérdezted, hogy melyik 2011 foglalatos i7 APU :F Semmi értelme ennek a kérdésnek, az i7 =/= LGA2011; szerintem csak szándékosan félreviszed a mondandómat. :(((

"Hülyeséget bes´zelsz itt össze vissza"
"[...] hülyeségként szökkent a fejedbe [...]"
"[...] APU-val bohóckodni [...]"
Ha kezdődnek az igénytelen sértegetések, vége az eszmecserének. Én mostantól ehhez tartom magam.

[ Szerkesztve ]

Copyright © 2000-2024 PROHARDVER Informatikai Kft.