Hirdetés

2024. április 30., kedd

Gyorskeresés

Hozzászólások

(#1) myckie2


myckie2
őstag

"Úúj Xeon Phi gyorsítók" :R

(#2) helkis


helkis
addikt

egy ilyen kártya, akkor be tud segíteni a Cpu-nak, mint +61db x86 mag?
simán indíthatók rajta normál programok, taskok, stb?

"Egyedi vagy és megismételhetetlen! Csakúgy, mint bárki más!!!'" - 3Dmarkillers - hwbot.org

(#3) LordX


LordX
veterán

A 61 db magot hogyan sikerült kihozni?

(#4) Abu85 válasza helkis (#2) üzenetére


Abu85
HÁZIGAZDA

Nem. Ez nem kompatibilis az x86-ra fordított alkalmazásokkal. A MIC legfontosabb változása a Larrabee projekthez képest, hogy megvágták a kompatibilitást az x86-tal.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

(#5) LordX válasza helkis (#2) üzenetére


LordX
veterán

Nem, ezt OpenCL-ben programozzák jellemzően.

(#6) helkis válasza Abu85 (#4) üzenetére


helkis
addikt

kár, pedig most nagyon jól jött volna egy-két olyan kártya.. jövőben elképzelhető? vagy végleg feladták?

"Egyedi vagy és megismételhetetlen! Csakúgy, mint bárki más!!!'" - 3Dmarkillers - hwbot.org

(#7) XuChi


XuChi
addikt

Ezeknek a kártyáknak mi is a céljuk??? Otthoni felhasználónak van belőle haszna??

(#8) AssAssynn


AssAssynn
őstag

"Xeon Phi gyorsítók"

Mintha valami Star Trekkes cucc lenne. :DDD

"Igen nagy hiábavalóság – mondja a Prédikátor –, minden hiábavalóság!" (Préd 12,8)

(#9) ledgeri


ledgeri
nagyúr

Már csak egy nvidia Cpu helyére rakható cumó kéne, és lehetne színes (akár nem is működő) konfigokat látni... :))

// #ublockO-HardMode // anti-blockadblock-er // PH! új arculat: 1/ 500 // szeksziboj -nálam van egy pirospontod! // Találtam sárga fényű lézert! (kézit, ceruzaelemest) https://youtu.be/XQnmMjYHgcM //

(#10) Abu85 válasza helkis (#6) üzenetére


Abu85
HÁZIGAZDA

Mármint az x86-os gyorsító? Az kétséges. Az a baj, hogy az x86-ot sosem tervezték skálázhatóságra. Ahhoz, hogy működjön óriási cache kell a lapkába. Azt a helyet viszont a többiek feldolgozóra költik és beletervezik az ISA-ba az adatpárhuzamosságot. Szerintem az Intel is erre megy. Egyszerűen nincs értelme a termék értelmét a vezetőség x86 mániájával kivégezni.

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

(#11) helkis válasza Abu85 (#10) üzenetére


helkis
addikt

pedig az nagy előny tudna lenni, hogy a meglévő programokat nem kell átírni!
főleg, ha pont olyan feladatról van szó, amit jól lehet párhuzamosítani.. ergo pusztán a "sokmagkártyával" lényegesen lehetne sokszorozni a sebességet..

"Egyedi vagy és megismételhetetlen! Csakúgy, mint bárki más!!!'" - 3Dmarkillers - hwbot.org

(#12) Abu85 válasza helkis (#11) üzenetére


Abu85
HÁZIGAZDA

Az marketingblabla. Át kell írni a programot, hogy skálázódjon. Még a pár soros változás sem elég.

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

(#13) tixem


tixem
addikt

Közeledünk, közeledünk :DDD

Galaxy S24 Ultra 1TB ||| ( •_•) ( •_•)>⌐■-■ (⌐■_■)

(#14) Sub-ZeRo


Sub-ZeRo
nagyúr

7120P 7120X között mi a különbség? Vagy én nem látom? Mert a 3xxx-es sorozat az oké, hogy miben változik az A és a P. De a P és az X.?!

"Ha egyedülállóval találkozunk, mindegy, mit mond, de biztos, hogy nem azért van egyedül, mert élvezi a magányt, hanem mert már megpróbált beilleszkedni a világba, de az emberek újra meg újra kiábrándítják."

(#15) Male válasza Abu85 (#12) üzenetére


Male
nagyúr

Szerintem arra gondol, hogy ami jelenleg megy kód pl 1 - 64 procimagon, szinte lineáris skálázódással, azoknak ez jó lenne így önmagában is (nem kéne szerver lap, meg clustert építeni, hanem pár ilyen kártya egy gépbe), ha meglenne az x86 kompatibilitás továbbra is, és nem kéne átírni semmit a kódban.

(#16) vakond5 válasza tixem (#13) üzenetére


vakond5
őstag

Beteg :DDD

"It's not about having what you want, it's wanting what you've got."

(#17) .mf válasza XuChi (#7) üzenetére


.mf
veterán

Ókos... *buksisimi* Na most menj vissza Pistikém rajzolgatni, mindjárt hozok egy új doboz zsírkrétát... :U

Fotóim és kalandjaim a világ körül: https://www.facebook.com/fmartinphoto/

(#18) Gergosz2 válasza tixem (#13) üzenetére


Gergosz2
veterán

TILE64

Nokia 6030 Hardcore User // I Panic Restaurant by Taito

(#19) angyalpc2 válasza tixem (#13) üzenetére


angyalpc2
aktív tag

EZZ beteg :D :C

a cuccból 4 rendel :D

(#20) prime_adam


prime_adam
aktív tag

Ha már opencl, egy ilyen vajon mit tudna egy opencl-es realtime rendernél, mondjuk egy nvidia quadro ellen?

(#21) Vigilante


Vigilante
őstag

Most ezekkel piszok gyorsan lehet pl videókat konvertálni meg renderelni? :U

△ Asrock X570M Pro4 △ AMD Ryzen 9 5950X ~ 4.4GHz - 1.248V +Corsair H115i PRO XT △ EVGA RTX 3090 FTW3 ULTRA GAMING 24GB (1950 MHz/20000MHz) - 0.950V △ G.SKILL 32GB KIT DDR4 3600MHz CL16 - 3600MHz △ Samsung EVO 970 M.2(500GB) +Samsung 980 PRO M.2(1TB) △ Samsung Odyssey G7 C27G75T ívelt 240Hz (27") △

(#22) Sanya


Sanya
nagyúr

De ez jobb, mint egy 7970 radeon gyorsításra?

A bortól bolondokat gondol az ember, DE A PÁLINKÁTÓL MEG IS CSINÁLJA!!!

(#23) ermisukrám válasza Sanya (#22) üzenetére


ermisukrám
tag

pl. blender hasznalata eseten kb annyit er a 7970(meg ugy altalaban minden amd kartya) mint egy 8 megas pci-os s3. kepet ad oszt jolvan. hiaba franko agcn (vagy nem) ha mindenutt a cuda a nyero

Aki másnak izébizé annak nyelve szabadlapos

(#24) ermisukrám válasza Sanya (#22) üzenetére


ermisukrám
tag

amugy nemjobb

Aki másnak izébizé annak nyelve szabadlapos

(#25) Abu85 válasza Sanya (#22) üzenetére


Abu85
HÁZIGAZDA

Ha OpenCL-ben írsz valamit, akkor a MIC betartva a hardver speckó igényeit kb. olyan hatékonyságra képes, mint egy GCN. Ergo a GCN annyival erősebb, amennyivel nagyobb a számítási teljesítménye.

Igazából itt az lesz az érdekes, amikor natív C++ kódot lehet rajtuk önállóan futtatni. A GCN és a MIC is képes rá.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

(#26) pakriksz válasza ermisukrám (#23) üzenetére


pakriksz
őstag

kb pont annyi helyen nyerő a cuda mint a gcn. Sőt már kevesebb helyen :D

Troll (nemhivatalos definíció): az akinek véleménye nem tetszik nekünk/nem értünk vele egyet. (10-ből 9 fanboy ezt ajánlja) || Fanboy 8 in 1 (Intel, AMD, Nvidia, konzol, PC,+minden politikai oldal) hiszen "ahol nem mi vagyunk, ott az ellenség"

(#27) vinibali


vinibali
őstag

pont a fősulimtól is kaptam egy mailt, hogy lesz ilyen bemutató. na mondom, biztos leimádkozzák a holdat :D

[ Szerkesztve ]

BIOS/UEFI írás, helyreállítás, törlés, mentés! https://www.bvinarz.org/bios-iras/

(#28) Vigilante válasza pakriksz (#26) üzenetére


Vigilante
őstag

Jah, mint a Metro Last Light-ba mi? :DDD [link]

És itt még az advanced physx be sincs lőve, képzelhetnéd akkor milyen hátrányba lenne az AMD, ha az is be lett volna lőve. ;]

Abu85: Annyira azért a 2033-ba se harmadolta az FPS értékeket, ez nem kicsit túlzás ami állítasz! :P Itt épp az SSAO eszi igazán a vasat!

[ Szerkesztve ]

△ Asrock X570M Pro4 △ AMD Ryzen 9 5950X ~ 4.4GHz - 1.248V +Corsair H115i PRO XT △ EVGA RTX 3090 FTW3 ULTRA GAMING 24GB (1950 MHz/20000MHz) - 0.950V △ G.SKILL 32GB KIT DDR4 3600MHz CL16 - 3600MHz △ Samsung EVO 970 M.2(500GB) +Samsung 980 PRO M.2(1TB) △ Samsung Odyssey G7 C27G75T ívelt 240Hz (27") △

(#29) Abu85 válasza Vigilante (#28) üzenetére


Abu85
HÁZIGAZDA

Az advanced physx az azt jelenti, hogy az elért fps/3. Tehát semmi értelme bekapcsolni, mert lehetetlen futtatni két kártya használata nélkül.

Egyébként itt elsősorban számítási teljesítményről van szó. Az új Metro még az SSAO-t is előszámítással csinálja, és minden compute shadert kivettek belőle. Gyakorlatilag a motort teljesen lebutították, hogy a hatékonyságban kiherélt Kepler működjön benne. Ezeknek az eredményeknek a gyökeres ellentétét hozzák a GPGPU programok.

Szerk.: A Metro 2033-ban gyakorlatilag semmi extra nem volt fizika terén. Az SSAO részben precompute-alapú. Gyakorlatilag alig eszi az fps-t, cserébe szarul néz ki. Az SSAA a PhysX mellett a másik fps harmadoló.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

(#30) Vigilante válasza Abu85 (#29) üzenetére


Vigilante
őstag

SSAA-t akartam mondani, nah! :DDD Anélkül, már a 660 TI is veri a 7970GE-t egyébként... [link] Nemhiába, van új driver is NV részről, hiába van "kiherélve" a kepler driverek is kellene a VGA-k mellé. :DDD És itt is a 680-ból kiindulva 1,66x-os fps csökkenés volt. Harmadolni azért nem harmadolja az FPS-t.

A többit sztem itt: [link], csak, hogy ne OFF-oljunk itt. :D

[ Szerkesztve ]

△ Asrock X570M Pro4 △ AMD Ryzen 9 5950X ~ 4.4GHz - 1.248V +Corsair H115i PRO XT △ EVGA RTX 3090 FTW3 ULTRA GAMING 24GB (1950 MHz/20000MHz) - 0.950V △ G.SKILL 32GB KIT DDR4 3600MHz CL16 - 3600MHz △ Samsung EVO 970 M.2(500GB) +Samsung 980 PRO M.2(1TB) △ Samsung Odyssey G7 C27G75T ívelt 240Hz (27") △

(#31) Abu85 válasza Vigilante (#30) üzenetére


Abu85
HÁZIGAZDA

Gratulálok nekik, hogy sikerült egy olyan architektúrát tervezni, ahol vissza kell térni nem egy elfogadott effektnél a precompute megoldásokhoz. Elárulom, hogy ezek minőségi szintjét egy modern elvek szerint tervezett GPU, mint ami neked is van a Fermi architektúrával gyorsabban megoldja csak számolva. Sőt, jobb minőséget képes számolni azonos erőforrásigény mellett.

Van benne 3x és 4x SSAA is. Régebbről van mérés, hogy egy GTX 670 Full HD-ben maxon, PhysX mellett és 4xSSAA-val 9 fps-re képes. Ehhez számolj hozzá 10% extrát az új driverből. :)

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

(#32) KYZRR


KYZRR
őstag

Ha mar opencl, bitcoin banyaszasahoz hogy viszonyulna?

You can only die once, make sure it is worth it...

(#33) Biliskmer válasza tixem (#13) üzenetére


Biliskmer
aktív tag

A 64Mb-os SSD-ből kérek 2-őt előre telepítedd WinNyóccal, köszikécske....
:Y

Nem tehetek róla, a gányolás az életem XD http://prohardver.hu/tema/hazi_barkacs_ganyolas_takolas_megdobbento_gepek/hsz_21183-21183.html

(#34) bitblueduck


bitblueduck
senior tag

Nem követem pontosan az ilyen gpgpu-szerű technológiákat, de néha elég kiábrándító dolgokat lehet látni (csakhogy a kedélyek kicsit csillapodjanak: prog.hu intel opencl 1.2
Pl:
"Hogy ne legyek elfogult, en idorol idore mindig kiprobalgatom az amdocl.dll-t, de hat az a baj, hogy nem valamelyik opencl sample appot akarom ujra megirni"
"i5 3570K-val kb megegyező (kicsit rosszab) sebességet tudok kihozni a Radeon 6870-ből"
"a ram az akkor is iszinyat lassu :S Probald megcsavarni ugy (ha egyaltalan lehetseges), hogy 1-et olvasol, 30-at matekozol."
"Sajna a GPU CPU uzemmodban hasznalva nagyon rossz"
Szerintem SW HW és tapasztalat terén is még van hova fejlődni. Nemtudom átlagfelhasználói szinten mikor lesz ebből nélkülözhetetlen dolog és általános elterjedtség (nyilván a xeon kezdetű dolgok pont nem is az átlagfelhasználónak születnek csak úgy általában mondom).

An open mind is like a fortress with its gates unbarred and unguarded.

(#35) Abu85 válasza bitblueduck (#34) üzenetére


Abu85
HÁZIGAZDA

Próbálkozzon APU-val, ahol a PCI Express késleltetés és sebessége nem lesz korlátozó tényező.

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

(#36) ledgeri válasza Gergosz2 (#18) üzenetére


ledgeri
nagyúr

Klaudia programozik?

[ Szerkesztve ]

// #ublockO-HardMode // anti-blockadblock-er // PH! új arculat: 1/ 500 // szeksziboj -nálam van egy pirospontod! // Találtam sárga fényű lézert! (kézit, ceruzaelemest) https://youtu.be/XQnmMjYHgcM //

(#37) Pikari


Pikari
őstag

inkohézív, asszimetikus hulladék. inkább egy 16 magos amd, vagy tilera.

A Dunning−Kruger-hatás az a pszichológiai jelenség, amikor korlátozott tudású, kompetenciájú vagy képességű emberek rendkívül hozzáértőnek tartják magukat valamiben, amiben nyilvánvalóan nem azok.

(#38) tocsa válasza Abu85 (#25) üzenetére


tocsa
senior tag

Azert nem mindegy, hogy mennyire "nativ" az a C++ kod! Peldaul a CUDA kernelbe nem lehet STL konyvtarakat beinclude-olni (ergo a compiler ami a CUDA magok assembly-jere fordit nem kepes meg boldogulni mindazzal a generikus es egyeb nyelvi dologgal, ami ezzel jarna). Jol izolalt es jol korulhatarolt kerneleket tud futtatni. AMi szoftver architekturalisan nem feltetlenul gond.
Ha az Intel nem butitja el tulzottan az x86 architecturatol az MIC magokat, akkor annak pont az lehet az elonye, hogy a meglevo C++ compiler-ek optimalizalni tudnak rajuk meg mindig, es valoban _barmilyen_ (szo szerint) C++ kodot kepes futtatni.

Xeon Phi-nek ket esetben latom ertelmet:
1. Nagyon eros dupla lebego pontos szamitasu massziv parhuzamos feladatoknal. Az nVidia es az AMD is probal itt feljebb kapaszkodni, de mivel az MIC magok Pentium magok, es annak azert nem olyan rossz az FPU-ja, ezert a Xeon Phi-nek viszonylag jo DP FP teljesitmenye van. Nem veletlenul lattam valahol, hogy a marketing anyagokban ezt domboritjak ki.
2. Olyan parhuzamos feladatoknal, amiknel egy thread is meglehetosen komplex, azaz profitalhat a nagy cache-bol, Out-of-Order vegrehajtasbol, elagazas becslesbol es minden okossagbol, es az egyes vegrehajto egysegeknek kommunikalniuk is kell egymassal. Pl mesterseges intelligencia algoritmusok. Vagy minden olyan algoritmus, ami ugyan parhuzamosithato, de kicsit nyogve-nyelosen, es a GPUGPU architekturanal az MIC jobban fekszik neki.

[ Szerkesztve ]

Acer Predator Helios 500 Ryzen, Samsung 960 Pro NVMe + GeChic 15.6" kulso monitor a mobil irodahoz

(#39) Sanya válasza Abu85 (#25) üzenetére


Sanya
nagyúr

Akkor innentől kezdve nem emelheti az egekbe az árát az intel, illetve lehet lesz hozzá support is. Bár a sok balga lehet megveszi akkor is ha nem kell, mert rajta a xeon matrica :-)

A bortól bolondokat gondol az ember, DE A PÁLINKÁTÓL MEG IS CSINÁLJA!!!

(#40) XuChi válasza .mf (#17) üzenetére


XuChi
addikt

Azt kérdeztem mire valóak ezek a kártyák..... :W

(#41) LordX válasza tocsa (#38) üzenetére


LordX
veterán

Az megvan, hogy ezek in-order magok? (Gyakorlatilag egy módosított Atom, felturbózott vektor pipeline-al).

Én nem értem ezt a felizgulást a natív C++ kódra. Jó, megvan a fordító, lefordítottat a "bármilyen" C++ programodat a GPU-ra. Gratulálunk, kaptál egy olyan binárist, ami a CPU-s sebesség töredékét hozza. Mármint miután már leszámítottad a PCIe buszon történő adatmozgatást is.

Semmilyen "natív" C++ program nem tartalmaz adatpárhuzamosítást, egy masszívan párhuzamos C++ program is bőven 50 szál alatt van (ami már overkill lenne egy CPU-ra). Egy ilyen Xenon Phi-nek minimum 240 szálra (=60*4) van szüksége, de inkább 1000-re. Adatpárhuzamos szálakra, tehát mindegyiknek tökéletesen ugyanazt kell csinálnia szinkronizálva (blokkonként, azaz pl. 386 szálanként).

Task-parallel világból data-parallel világba az áttérés nem kis módosítás, gyakorlatilag nulláról kell újrakezdeni mindent. Ami érdekes a C++-ban, az az absztrakció szintje, ami hiányzott eddig a GPU programozásból - erre (jelenleg még csak Windowson) megoldás a C++AMP: Működik, C++, GPU-ra is fordul. Az Intel gőzerővel dolgozik a Linux porton. Megjegyezendő, hogy ott se lehet pl. STL-t használni, egy hasonló, de teljesen más szemantikájú fejléckészletet kell használni.

TL: DR: le lehet fordítani, hogy fusson, de abszolúte semmi értelme.

[ Szerkesztve ]

(#42) ermisukrám válasza pakriksz (#26) üzenetére


ermisukrám
tag

kár hogy mindíg ott nincs OpenCL ahol az ember használná (személyszerint én) pl After effect, vagy blender (after effectben elvileg van OPENGL úgyanúgy mind két nagy gyártóra, mégis kategóriákkal gyorsabb egy hasonló CUDA támogatású VGA-n mint egy AMD-n ugyanaz a render (CS 5.5)).
Még mielőtt nekem esne bárki; semmi bajom az AMD kártyáival de munkára alkalmatlanok. (legalábbis arra amit én használok)

Aki másnak izébizé annak nyelve szabadlapos

(#43) Abu85 válasza ermisukrám (#42) üzenetére


Abu85
HÁZIGAZDA

After effectre van OpenCL gyorsítás. Az Adobe lassan egy éve eldöntötte, hogy csak az OpenCL-re fejleszt a jövőben, mert a CUDA-t eddig senki sem licencelte, így kockázatosnak találják ezt az irányt. Az OpenCL az nyílt, és mindenki támogatja. Sokkal biztonságosabb egy szoftvercégnek. Főleg az Adobe-nak, mert ők bevallottan attól félnek, hogy az Apple nem épít majd több dGPU-t a mobil Macekbe és akkor oda a CUDA is.

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

(#44) vinibali válasza ermisukrám (#42) üzenetére


vinibali
őstag

az CS5.5 nagyjából 2 éves. mivel drága, javaslom csak próbáld ki a CS6-ot. le fog esni az állad. olvasgattam az új Adobe sorozatról is CC-nek fogják hívni és állítólag már nagyon komolyan belefeküdtek az OpenCL-be :)
ez az utolsó mondat a te egyéni eseted, mert olyan korú CS5.5-öt használsz, aminél van már sokkal újabb. akkor még nem számoltak komolyan az OpenCL-lel :)

[ Szerkesztve ]

BIOS/UEFI írás, helyreállítás, törlés, mentés! https://www.bvinarz.org/bios-iras/

(#45) tocsa válasza LordX (#41) üzenetére


tocsa
senior tag

Hat az nem volt meg nekem, hogy ezek ennyire buta in-order magok. En egy korabbi tervre emlekeztem, ahol Pentium magokat hasznaltak (volna).

Felizgulas a C++ kodra: pedig te is peddzegeted a dolgot. "teljesen más szemantikájú fejléckészletet kell használni" - namost ha x86-os magok lennenek, akkor a meglevo x86-os kompilerek miatt nem lennenek ilyen korlatozasok. _Tenylegesen_, _valoban_ azt futtathatnal, amit akarsz, mert a kompiler le tudna forditani.

Ez igenis tenyezo lehet olyan esetben, ha mar van egy eleve multi-thread-es programod egy masszivan parhuzamosithato feladatra (tehat a kododat korlatozza az, hogy pl csak 8 szalon futhat, futhatna akar 200-on is). Viszont a kodod hasznal ilyen-olyan konyvtarakat. Tehat igazabol van egy kerneled, de nem felel meg meg a CUDA kovetelmenyeknek sem. Nem feltetlenul egyszeru megfosztani ezt a kodot a konyvtaraktol. (Gyakorlatilag implementalod a konyvtar azon reszet, amit hasznalsz).

240 vagy 1000 szal nagy feladatoknal, adatmennyisegnem nem gond, megvan az.
Itt a task parallel dolgot nem kevernem most ide. A lenyeg, hogy van egy kerneled, de az komplex.
Mondjuk itt most eppen nem is mesterseges intelligenci algoritmusokra gondolok, azok esetleg bonyolultabbak lehetnek. Bar nyilvan ott sem lehetetlen, lattam en olyan implementaciot, amit Python-ban irtak, a Python-hoz van olyan konyvtar, amivel CUDA-t is meg tudsz hajtani.

Az STL-t csak peldakent irtam.

C++ AMP-hez ovatosan allok hozza, meg nem probaltam ki, nyar vege fele lesz idom talan. Azt orommel hallom, hogy Linux-on is dolgoznak rajta. Van meg mas hasonlo szoftveres megoldas is egyebkent.

Acer Predator Helios 500 Ryzen, Samsung 960 Pro NVMe + GeChic 15.6" kulso monitor a mobil irodahoz

(#46) LordX válasza tocsa (#45) üzenetére


LordX
veterán

"Itt a task parallel dolgot nem kevernem most ide."

Pedig pont hogy ez a probléma, CPU-ra task parallel módon párhuzamosítasz, GPU-ra data parallel módon. Teljesen más hozzáállást igényel a kettő, és ezért nincs semmi értelme annak, hogy meglevő C++ kódot akarjon valaki felhasználni. Attól még jó dolog lenne egy C++-szerű nyelven data parallel programozni (de nem "natív" C++-ban): Ilyen a C++AMP és tegnap nézegettem az AMD OpenCL C++-át, az is jó irány. Csak az egyik Windowshoz kötött, a másik meg Radeonokhoz..

(#47) pakriksz válasza Vigilante (#28) üzenetére


pakriksz
őstag

itt hol van gpgpu használat? Egyébként kit érdekel a last light, egy nyomorék nvidia reklámjáték, mesterséges visszafogással nem nvidia gpukon. És mellesleg a játék is egy fos :)

Azért gáz hogy a stalker készítői ilyen pénzért bármit, reklámhulladék gyártó k...ák lettek :)

[ Szerkesztve ]

Troll (nemhivatalos definíció): az akinek véleménye nem tetszik nekünk/nem értünk vele egyet. (10-ből 9 fanboy ezt ajánlja) || Fanboy 8 in 1 (Intel, AMD, Nvidia, konzol, PC,+minden politikai oldal) hiszen "ahol nem mi vagyunk, ott az ellenség"

(#48) pakriksz válasza ermisukrám (#42) üzenetére


pakriksz
őstag

blenderben semmiféle gyorsítás nincs, max grafikai, opengl-ben...

Troll (nemhivatalos definíció): az akinek véleménye nem tetszik nekünk/nem értünk vele egyet. (10-ből 9 fanboy ezt ajánlja) || Fanboy 8 in 1 (Intel, AMD, Nvidia, konzol, PC,+minden politikai oldal) hiszen "ahol nem mi vagyunk, ott az ellenség"

(#49) tocsa válasza LordX (#46) üzenetére


tocsa
senior tag

1. Ki a loturo akarna C++ "szeru" programnyelven data parallel programozni, ha lehetne C++-ban is?
2. Mar miert ne lehetne data parallel programot irno C++ SMP architecturara??? Pont errol szol a Xeon Phi is, olvasd el amit irtam. Eredetileg pl dupla pontossagu lebego pontos teljesitmenye osszemerheto volt a GPGPU FLOP-javal. Igen is van (volt?) letjogosultsaga. Persze a piac majd eldonti vegul. Meg nemtom akkor vegul mennyire butitottak le. Az Atom magok kicsit lelomboznak.

Az OpenCL-ben pedig jo, hogy platform fuggetlen (AMD vs nVidia vs others), nade az egesz kerneled egy stringben van? (igy kuldod el leforditani, mondjuk tudom, hogy a leforditott kernel cache-elheto. Nade egy stringben van a kernel????)

C++ AMP-tol annyira nem vagyok felvillanyozva eddig meg, habar nem probaltam. Pont ezaz, hogy merni szeretnek majd, hogy mennyit tud a nativ CUDA-hoz kepest.

Van itt meg hova fejlodni.

[ Szerkesztve ]

Acer Predator Helios 500 Ryzen, Samsung 960 Pro NVMe + GeChic 15.6" kulso monitor a mobil irodahoz

(#50) Pikari válasza tocsa (#49) üzenetére


Pikari
őstag

a data paraller kifejezés csak egy üres lózung, amivel a gpgpu hívei próbálják magukat nyugtatgatni, mikor észreveszik, hogy nem lehet a hulladékukra valódi szoftvert írni. lehet azt, csak DATA PARALLER <- így nyugtatgatják magukat. mint mikor a német katonák a titkos, láthatatlan csodafegyvert cipelik.

A Dunning−Kruger-hatás az a pszichológiai jelenség, amikor korlátozott tudású, kompetenciájú vagy képességű emberek rendkívül hozzáértőnek tartják magukat valamiben, amiben nyilvánvalóan nem azok.

(#51) LordX válasza tocsa (#49) üzenetére


LordX
veterán

1, Ha lehetne, akkor senki. De nem lehet hatékonyan. A C++AMP 100% C++ szintaxis, csak a függvénykönyvtárak mások (és próbál minél jobban hasonlítani az STL-re).

2, SMP-re lehet data parallel programot fordítani, miért ne lehetne? Sőt, single processzorra is lehet írni, max nem lesz gyorsabb, mint a natív megvalósítás :U Fordítva van a probléma. Egyszerűen azért, mert a GPU-ban úgy vannak a végrehajtó egységek, hogy (pl.) 32 darabonként van egy darab közös vezérlőegység. Tehát 32 szálanként egy adott órajel alatt pontosan ugyanazon utasítás hajtódik végre mind a 32 szálon, nem működik az, mint SMP esetében, hogy egyik szállal ezt, másikkal azt csinálom. Egy standard SMP esetében ha van 32 darab végrehajtó egységed (processzorod..), akkor az 32 különböző dolgot csinálhat. (sőt, fog csinálni, mert még processzoron belül is gyakorlatilag kivitelezhetetlen az utasítás szintű szinkronizálás.)

3, Mert miben legyen, a C++ is egy textfájlban van, mielőtt lefordítod. A probléma az, hogy nem fordíthatsz máshol, csak a kliens gépén.

(#52) tocsa válasza LordX (#51) üzenetére


tocsa
senior tag

2.) Pont azt magyarazod, hogy miert lehet letjogosultsaga egy ilyen many-core x86-os architekturanak. A 32-es warp size miatt ha a thread-ek futasi ideje nagyon kulonbozo, akkor az nagyon betehet az ossz teljesitmenynek a GPU-nal. Vegyunk peldaul egy kepfeldolgozasi algoritmust, ami maszkolt, azaz a kep csak bizonyos reszeire kell lefuttatni, es ezek a reszek amorfak. Namost egy data parallel algoritmust siman raszabaditok 8 magra, ugy ahogy van, ezek szepen kiszamolnak minden, ha valamelyik pixel es kornyezete hatarertek alatti, akkor nyomul a kovetkezore. Ellenben a GPU nagyon megszivhatja. Most csak emiatt strukturaljam at az adatot? De az egesz tili-tolival nagyon elmegy az ido. Mar az adat mozgatas a GPU es a rendszer kozott is problema, es ezt meg meg kene fejelni megegyszer annyival, hogy atrendezgessek, hogy a GPU-nak kegyeskedjen jo lenni a bemenet.

(Azt is tegyuk hozza, hogy a legujabb generacios nVidia GPU-knak mar fejletteb utemezoje van es ilyen kiegyensulyozatlan feladatok eseten jobban teljesitenek, de nekem meg nincs ilyen kartyam).

(Meg azt is tegyuk hozza, hogy az AMD legujabb tervezett APU-inal pedig az adat mozgatas a CPU es a GPU kozott nem lesz gond, mivel nem lesz szukseg ra, mert mindketto ugyanazt a kozos cimteret es GDDR5 memoriat latja majd.)

3.) Varjunk azert. Egy darab string tipusu valtozo, karakter halmaz egy fajlon belul != maga a text fajl. Az a C++ text fajl az IDE-ben megnyitva syntax highlight-olt, debuggolod, sorokra ugrassz, stb. Mig egy stringbe belehanyva az egesz source... hat... nem kis kulonbseg van. Pl a syntax highlight esetleg felesleges funkcionak tunhet, de valojaban nagyon sokat jelent ahhoz, hogy jobban atlassad a kodot es konnyebben eszrevedd a hibakat. Majdnem erre megy ki az egesz jatek, hogy kikuszoboljuk a hibakat, amiket vetunk! Minden lepes szamit ehhez.

Acer Predator Helios 500 Ryzen, Samsung 960 Pro NVMe + GeChic 15.6" kulso monitor a mobil irodahoz

(#53) LordX válasza tocsa (#52) üzenetére


LordX
veterán

Nem az adatot kell átstrukturálni, hanem az algoritmust. Akárhogy is, a natív megoldás még ha le is fordul, nem lesz gyorsabb. Lehet, hogy e miatt jó lehetne a many-core x86, de ha sok CPU mag kell, tegyél a gépbe sok CPU-t. Ezek a kártyák sose akartak mást, mint amit tudnak, ha programozni akarod őket, azt úgy kell csinálni, hogy nekik jó legyen.

Nem tudom te milyen IDE-t használsz, de mind a Visual Studio és az Eclipse is .cl fájlban is highlightol, és debuggolni is tudom (bár ez utóbbi erősen SDK függő).. A szögnél bonyolultabb kódokat amúgy is ki kell szervezni külön fájlba, gyakorlatilag semmi sincs .cpp forrásban idézőjelek között.

(#54) Abu85 válasza tocsa (#52) üzenetére


Abu85
HÁZIGAZDA

Nem veszed számításba, hogy az x86 nem skálázhatóságra épített ISA. Amikor tervezték, akkor sosem merült fel, hogy lesz többmagos korszak. Ezért módosították a MIC-ben, mert a hagyományos x86 nem skálázódik jól egy bizonyos szint után, a változásokkal viszont megszűnt a bináris kompatibilitás, de ez mindegy is. A jelenlegi MIC-ben a rendszer úgy skálázódik megfelelően, ha a magok által futtatott feladathoz az adat ott van a magokhoz rendelt L2 cache-ben. Ha a memóriába kell menni érte, akkor sokat veszít a rendszer. Ezért van a Knights Cornerben 30+ MB L2 cache, miközben a többi GPU-ban 1 MB körüli L2 van, de csak azért, mert az ISA-ba beletervezték a skálázhatóságot. Ez az oka annak is, hogy az AMD és az NV, illetve a többi GPU fejlesztő cég 3-4-5 évente kompletten lecseréli az ISA-t. Ezek nem olyan hardverek, hogy évtizedekig lehet ugyanahhoz az ISA-hoz ragaszkodni. Lehet, csak nem fog skálázódni.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

(#55) dezz válasza Male (#15) üzenetére


dezz
nagyúr

Mindenki tudja, mire gondolt, de egy ehhez hasonló hw nem lenne jó arra. Teljesen beállna az egész.

(#50) Pikari: Az nem lehet, hogy csak neked nem sikerült, azért vagy ilyen frusztrált? :)

Azt kellene már megérteni, hogy CPU alapon sokkal nagyobb fogyasztással lehetne kihozni hasonló számítási teljesítményt.

(#56) Pikari válasza dezz (#55) üzenetére


Pikari
őstag

nem vagyok frusztrált. ha nem tudod, mit jelent a frusztrált szó, nézz utána a jelentésének ;)

A Dunning−Kruger-hatás az a pszichológiai jelenség, amikor korlátozott tudású, kompetenciájú vagy képességű emberek rendkívül hozzáértőnek tartják magukat valamiben, amiben nyilvánvalóan nem azok.

(#57) dezz válasza Pikari (#56) üzenetére


dezz
nagyúr

Tudom, mit jelent, és te az vagy, hiszen "kiborít", hogy a sokmagos CPU-k helyett a GPU-kat nyomják... Ha ehhez hozzátesszük, hogy nagy számítási teljesítményű alkalmazást fejlesztesz, akkor nyilván próbálkoztál a GPU-kkal is, de nem úgy tűnik, mintha ez sikeres lett volna. Most már csak az a kérdés, hogy ez a GPU-k hibája vagy a tiéd?

(#58) Pikari válasza dezz (#57) üzenetére


Pikari
őstag

omg, ez nagyon kiborít, nem is akarok erről beszélni, mert még a végén fel találom vágni bánatomban az ereimet :D

A Dunning−Kruger-hatás az a pszichológiai jelenség, amikor korlátozott tudású, kompetenciájú vagy képességű emberek rendkívül hozzáértőnek tartják magukat valamiben, amiben nyilvánvalóan nem azok.

(#59) dezz válasza Pikari (#58) üzenetére


dezz
nagyúr

Akkor biztos csak véletlenül írod be minden GPGPU-s topikba, hogy halál a GPGPU-ra és CPU rulez... :)

(#60) Pikari válasza dezz (#59) üzenetére


Pikari
őstag

miért zavar téged a véleményem? talán a húsodba vág a régi negatív élményeid miatt? talán a véleményem bizonyos hiányosságaidra emlékeztet, és ezért fáj annyira? :D

A Dunning−Kruger-hatás az a pszichológiai jelenség, amikor korlátozott tudású, kompetenciájú vagy képességű emberek rendkívül hozzáértőnek tartják magukat valamiben, amiben nyilvánvalóan nem azok.

(#61) dezz válasza Pikari (#60) üzenetére


dezz
nagyúr

Én általában megindoklom a véleményemet, te viszont kinyilatkoztatásként közlöd, miközben sértegeted azokat, akik hasznosnak tartják a GPGPU koncepciót. Szerintem ez nem csak engem zavar egy kicsit.

(#62) tocsa válasza LordX (#53) üzenetére


tocsa
senior tag

Koszi egyebkent a "vitat", eszmecseret.
Szandekosan helyezkedtem egy kicsit a kartya oldalara, es probaltam felhozni erveket mellette. Vegul ugyos a piac dont. A CUDA miatt meg amugy is at kell strukturalni kicsit a programot. Ami architekturalisan az elonyere is valik, hogyha nem olyan bonyolult az akernel es nem include-ol be foloslegesen dolgokat.

Acer Predator Helios 500 Ryzen, Samsung 960 Pro NVMe + GeChic 15.6" kulso monitor a mobil irodahoz

(#63) tocsa válasza Abu85 (#54) üzenetére


tocsa
senior tag

Igaz, sajnos a skalazodas az problema lehet. Ezen javithat az, hogyha a feladat szerencses, es nagy CPU de keves memoria mozgatasi igenyu. De ez ritka. x86-nal Intel eseteben a QPI segitene (bizonyos feladatoknal), de a Phi-ben nincsen QPI.
A savszelesseg a GPU-knal is problema amugy, az nVidia cross-bar memoriat tervezett az AMD pedig ring buszt. (javitsd ki ha forditva van), mindkettonek megvan a maga elonye es hatranya.

Acer Predator Helios 500 Ryzen, Samsung 960 Pro NVMe + GeChic 15.6" kulso monitor a mobil irodahoz

(#64) LordX válasza tocsa (#62) üzenetére


LordX
veterán

Ezek a kártyák jók, mert első blikkre iszonyat teljesítményük van - céges gépemben van egy i7-i3667U, a benne levő értékelhetetlenül hipergyenge HD4000 is 8-10x gyorsabban szoroz össze nagy (~3000x3000) mátrixokat. Viszont helyén kell kezelni őket, különben pofára esés lesz az egész - kis mátrixokra (~8x8) már lekörözi a proci, mert csak 64 szálat lehet indítani az eredmény kiszámolására, ami kevés.

(#65) Male válasza dezz (#55) üzenetére


Male
nagyúr

Nem úgy tűnt, mintha mindenki tudná.
...és miért is állna be az egész rendszer? Anélkül, hogy tudnád, mit is kell számolni, te megmondod, hogy nem működne :F

(#66) dezz válasza Male (#65) üzenetére


dezz
nagyúr

Abu pl. tudta, ez a válaszából is kitűnik.

Nem csak én mondom meg. Szerinted miért hagyta ki az Intel az x86 kompatibilitást? És nyomatja hozzá az OpenCL-t?

De amúgy könnyű belátni:
- Egy 8 v. 16 procis, egyenként 8 v. 4 magos E5-46xx cluster össz-memóriasávszélessége ~400/600 GB/s, de ami fontosabb, összesen 2048/4096 biten! Alacsony késleltetésű DDR3-mal. Phi: 352 GB/s, 512 biten, nagyobb késleltetésű GDDR5-tel.
- A fenti clustereknél összesen 176MB L2+L3 áll rendelkezésre, a Phinél 31MB L2.
- A fenti clusterekben összesen több TB memória lehet, Phi: 8GB.
- A Phi magjai nem teljes értékű procimagok, valószínűleg nem annyira szeretik az ugribugrit, ráadásul in-orderesek. Ugyanakkor a hatékony kihasználásukhoz masszívan SIMD-ezett kódra van szükség.
- A clusternél nem kell, hogy különösebben össze legyenek hangolva a procik (még az egyes magok sem annyira), a Phinél azonban ez megkerülhetetlen.

(#67) Male válasza dezz (#66) üzenetére


Male
nagyúr

Mert nem ideális _általában_. Viszont tudom mire akarná használni helkis, és oda ez tökéletes lenne.

Annál a feladatnál ~30MB adat van gyilkolás alatt, egy darab 4GHz-es Ivy maggal kb 5-6 perc egy lefutás, aminek az eredménye mindössze két darab double érték, viszont minimum 10.000 lefutás kell (de ha meglenne a szükséges teljesítmény, akkor ez milliárdos nagyságrend inkább), és ezek teljesen függetlenek. Gyanítom bőven elég lenne a memória méret és sávszélesség.

Ha általánosságban kijelented, hogy nem volt ideális az x86 ehhez, és azért kukázták, akkor egyetértek, de az adott feladat és a megvalósító x86-os kód ismerete nélkül nem kéne ilyet kijelenteni...

"de ami fontosabb, összesen 2048/4096 biten" Őőő... ha a sávszélességeket hasonlítgatod össze, akkor annak nem sok jelentősége van, hogy az adott sávszélesség hány bites busszal jön ki. Vagy szerinted 100MHz 128bit gyorsabb, mint 200MHz 64 bit? A késleltetésnek már inkább van szerepe (meg persze annak, hogy mekkora adatot akarsz átpréselni egyszerre az adott buszon).

(#68) dezz válasza Male (#67) üzenetére


dezz
nagyúr

Jó, de ez már nagyon speciális eset! Amúgy meg lehet tudni, hogy ez mi a "fene"? :)

A #2-esben normál programokat, taszkokat említett. Később is csak jól párhuzamosítható feladatokat, így a kettő együtt pl. renderelést sejtet.

Nem csak a sávszélességet hasonlítottam össze, mint láthatod, hiszen nem csak az számít. Pl. egy sok szálon futó, nem külön GPU-ra fejlesztett renderelés esetén, ahol az egyes szálak egymástól nagyrészt függetlenül dolgoznak, eltérő memóriahozzáférési patternnel, nagyon nem mindegy, hogy hány biten és csatornán érik el a ramot a magok. Ilyen esetben az 512 bites GDDR5 (neki megfelelő 5 GHz körüli effektív órajellel) sehol sincs a 32-64 csatornás, 2048/4096 bites DDR3-hoz képest (hiába csak ~2 GHz).

(#69) Pikari válasza dezz (#68) üzenetére


Pikari
őstag

azért itt a gondolatmenetet még bonyolítja a random memory read kérdése, pontosabban az, hogy az algoritmusodnak mennyire van szűksége rá.

A Dunning−Kruger-hatás az a pszichológiai jelenség, amikor korlátozott tudású, kompetenciájú vagy képességű emberek rendkívül hozzáértőnek tartják magukat valamiben, amiben nyilvánvalóan nem azok.

(#70) dezz válasza Pikari (#69) üzenetére


dezz
nagyúr

Igen, bár a memóriahozzáférési patternbe ez is beleértendő.

(#71) Male válasza dezz (#68) üzenetére


Male
nagyúr

Igen, spec eset, de nekünk pont ez van :) Ezért mondom, hogy általánosságban igaz amit írsz, de ebben a konkrét helyzetben nekünk jó lenne az x86 kompatibilitás.

Szerintem ez nincs feltétlenül így, de rendereléssel és hogy ott mi az előnyös, azzal nem foglalkozom, így inkább nem mennék bele.

(#72) Pikari válasza Male (#71) üzenetére


Pikari
őstag

szerintem igazából végső soron lényegtelen, hogy x86, arm, vagy mips. a linuxnak mindegy. a lényeg, hogy monolitikus legyen, hogy pthread_createval le tudja rakni a szoftvered a petéit.

A Dunning−Kruger-hatás az a pszichológiai jelenség, amikor korlátozott tudású, kompetenciájú vagy képességű emberek rendkívül hozzáértőnek tartják magukat valamiben, amiben nyilvánvalóan nem azok.

(#73) Male válasza Pikari (#72) üzenetére


Male
nagyúr

Ha az egész újra írható (és a költségvetésbe, időbe belefér), vagy még nincs meg, akkor mindegy, persze.

(#74) Pikari válasza Male (#73) üzenetére


Pikari
őstag

miért kéne újraírni? semmit sem kell újraírni, lefordítod és kész.

A Dunning−Kruger-hatás az a pszichológiai jelenség, amikor korlátozott tudású, kompetenciájú vagy képességű emberek rendkívül hozzáértőnek tartják magukat valamiben, amiben nyilvánvalóan nem azok.

(#75) LordX válasza Pikari (#74) üzenetére


LordX
veterán

Erm? Még mindig GPU-n futtatásról beszélsz? :F

(#76) Pikari válasza LordX (#75) üzenetére


Pikari
őstag

már rég nem arról beszélünk, jóreggelt :D

A Dunning−Kruger-hatás az a pszichológiai jelenség, amikor korlátozott tudású, kompetenciájú vagy képességű emberek rendkívül hozzáértőnek tartják magukat valamiben, amiben nyilvánvalóan nem azok.

(#77) Male válasza Pikari (#74) üzenetére


Male
nagyúr

A spec esetünkben mert pl csak egy részének van meg a forráskódja. (jó, tudom, szakadjak már el a saját problémámtól :) )

(#78) Pikari válasza Male (#77) üzenetére


Pikari
őstag

részvétem, igazi extrémsport lehet az ilyen évtizedes legacy libek hibáit kerülgetni

A Dunning−Kruger-hatás az a pszichológiai jelenség, amikor korlátozott tudású, kompetenciájú vagy képességű emberek rendkívül hozzáértőnek tartják magukat valamiben, amiben nyilvánvalóan nem azok.

(#79) Male válasza Pikari (#78) üzenetére


Male
nagyúr

Áh, clusteren száguld szépen, ugyhogy nem panaszkodom :)

(#80) Pikari válasza Male (#79) üzenetére


Pikari
őstag

tőlem is mostanában minden megrendelő forráskódokat követel. de én se szoktam nekik adni, max úgy, hogy egy 0-t rádobok az árcetli végére :D ha új platform kell nekik, jöjjenek csak szépen vissza :D

A Dunning−Kruger-hatás az a pszichológiai jelenség, amikor korlátozott tudású, kompetenciájú vagy képességű emberek rendkívül hozzáértőnek tartják magukat valamiben, amiben nyilvánvalóan nem azok.

Copyright © 2000-2024 PROHARDVER Informatikai Kft.