Hirdetés

2024. április 25., csütörtök

Gyorskeresés

Hozzászólások

(#1) tibcsi0407


tibcsi0407
félisten

Köszönjük a részletes bemutatót. :R
Várom a Pascal középkategóriát, kíváncsi leszek rá mit fog felmutatni az NV.

https://utdetailing.hu/

(#2) MiklosSaS


MiklosSaS
nagyúr

Tehát az NVidiának nincs HBM technológiája......

Jah....mégis van.

~~~~~~ Privatban NINCS szakmai tanacs! ~~~~~~

(#3) pomorski


pomorski
őstag

Köszi a részletes leírást! Olvastam a cikket, és egy kérdésem felmerült. Írod, hogy "...16 darab dedikált FP64-es CUDA mag, amelyek nyilván a dupla pontosság végrehajtásáért felelnek". Ezek nem véletlenül a négyszer pontosságért felelnek?

(#4) Abu85 válasza pomorski (#3) üzenetére


Abu85
HÁZIGAZDA

Elvileg nem tud négyszeres pontosságot. Legalábbis az NV nem beszél róla. Az FP64-es CUDA magok hivatalos neve egyébként Double Precision Unit. Ezért írtam FP64-et ehelyett, mert a szimpla DP Unit megfogalmazás nem elég egyértelmű az ALU-ra vonatkozóan, mert lehetne például csak integer ALU is.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

(#5) pomorski válasza Abu85 (#4) üzenetére


pomorski
őstag

Köszi.

(#6) nyakdam


nyakdam
aktív tag

Az előző cikk ezzel a cikkel kerek.
Köszi.

(#7) #45997568 válasza MiklosSaS (#2) üzenetére


#45997568
törölt tag

Az nem az NV technologiaja, ok csak hasznaljak :P Szoval a kerdesedre a valasz: nincs :)

(#8) Ruuwa


Ruuwa
tag

Annyira nem követtem a Pascal-ról szóló híreket, de a cikket végigolvasva azon gondolkodtam, mi a valószínűságe annak, hogy a konzumer és mobil vonalra egy másik architectúrával készülnek? Van annyira rugalmas a felépítés, hogy viszonylag egyszerűen összelegózhassanak egy egyszerűbb lapkát, megtartva a regisztereket, de mellőzve pl NVlink-et és néhány SM-t? Van-e értelme pl HBM-et használni, de nem a "teljes" 4x4GB-os kiépítésben, vagy az interposer miatt úgy se lehetne olcsóbban adni, ezért nincs is értelme gyártani?

Rettentő specializációnak tűnik ez az architektúra, megéri ezt gyártani és letiltogatni az egyes blokkokat/funkciókat és úgy építeni rá egy konzumer felső kategóriás videókártyát?

Hirtelen ennyi :D

Valami tréfás, humoros, mégis mélyenszántó gondolatokat magában hordozó, rövid, velős mondat, mely egyéniségem rendkívüli sokszínűségéről tesz tanúbizonyságot.

(#9) #06658560


#06658560
törölt tag

Korrekt bemutató.

Arra fogadnék, hogy a P100 és leszármazottjai csak szerverbe mennek, megint lesz majd külön grafikai és compute vonal.

A Power 8-cal a RAM-ot csak a CPU-n keresztül éri el a P100, vagy direkt is? Mert az ábra alapján csak CPU-n keresztül, szöveg szerint direkt.

(#10) Z10N


Z10N
veterán

"belül az összes compute blokk"
"Az NVIDIA az megfelelő NVLINK"

610 mm² meretet sok helyen elvetettek es lam megis ekkora lett. Gondolom a 600 mm² szabta a hatart es ezert nem lett 64 SM. 300W-tal mar ertheto a GCN is. Most mar az AMD-n a sor, hogy mutasson valamit a Polaris-bol.

[ Szerkesztve ]

# sshnuke 10.2.2.2 -rootpw="Z10N0101"

(#11) tailor74


tailor74
őstag

Korrekt kiegészítése az előző cikknek, köszi. :)

Aminek kerekei, vagy mellei vannak, azzal előbb-utóbb gond lesz.

(#12) vader108


vader108
tag

Köszi! Jó cikk lett! Másikkal kiegészítve végre nagyobb teret lehet rálátni a dologra!

(#13) namaste


namaste
tag

Csak egy dolog érdekel: milyen a crossbar? :) Vannak-e nem priorizált adatutak?

Miért nem jó a szoftveres ütemezés? Konkrétan mi és hogyan javult a Keplerhez, Maxwellhez képest?

Az előzetesen várttól elmarad a memória mérete 32GB -> 16GB, illetve a sebessége 1TB/s -> 720GB/s. Mindkettő javulhat még, az is lehet, hogy egyelőre csak ilyen HBM2 memóriát gyártanak.

A cikk kihangsúlyozza a gépi tanulást, de nem emeli ki, hogy a klasszikus (FP64) HPC feladatokra is nagyon jó. A Kepler GK110/GK210 volt az utolsó, a Maxwell nem megfelelő HPC-re.

(#14) fanti


fanti
addikt

Na, ez már döfi!

Bááááár vasunk eddig is volt játszani, de ez a Pascal majd kelleni fog a jövő játékaihoz.
Nem is lenne ezzel baj, ha grafika minőségileg olyan játékok jönnének, hogy azt hinném, hogy ez valami 4k-s film?!

De persze ilyet naná, hogy nem kapunk.
Lesz helyette viszont 150GB-os telepítőkészletű, összetákolt, átportolt, orbitális bughalmaz, ami még a Pascal-t is kifekteti, és futni fog 30 fps-el, és olyan szintű grafikával, hogy rendesen optimalizálva egy 960-as is szépen elvinné......hiába no, ez a jövő!

Egy ilyen kártyára totál fotórealisztikus játékokat kellene írni......de ez az ami nem lesz meg.

Szép, gyönyörű specifikációk, csilivili szuper technológia, és ez tényleg az, csak amit várnánk tőle, pont azt nem kapjuk majd meg. Sajnos!

GIGABYTE B550 Aorus Pro, AMD Ryzen 9 5950X, Noctua D14, Crucial Ballistix 4x16GB DDR4 3200Mhz@3800MHz CL18, Powercolor 7900XT, M.2 Samsung 981 2TB, M.2 Kioxia (XG6) 2TB, 2 x Intel 730 SSD 480GB, Crucial MX500 2TB, SEAGATE SkyHawk 6TB, 750W Gigabyte Aorus Gold, Evolveo T4, Samsung S43BM700UUXEN

(#15) Simid


Simid
senior tag

Most ez biztos hülye kérdés, de ezeket a SP/DP egységeket hogy kell elképzelni? SP használata esetén a DP egység pihen és fordítva? Van olyan felhasználás ami pont ilyen 2/1 arányban használja ki az erőforrásokat?

(#16) FollowTheORI válasza Ruuwa (#8) üzenetére


FollowTheORI
nagyúr

Nagyon is benne van ez a lehetőségek között... :)

Steam/Origin/Uplay/PSN/Xbox: FollowTheORI / BF Discord server: https://discord.gg/9ezkK3m

(#17) Loha válasza Simid (#15) üzenetére


Loha
veterán

NV-nál a Keplertől kezde az FP64-es (Dupla Pontosságú) számításokat külön FP64-es CUDA magok végzik, amik az FP32-es (SP) számítások alatt pihennek, viszont az FP32-es egységekkel párhuzamosan is képesek FP64-es számításokon dolgozni.

Az FP32-es számításokat a dedikált FP32-es CUDA magok végzik, amik Pascaltól kezdve képesek lesznek dupla sebességgel az FP16-os számításokra is.

AMD-nél (Hawaii) az FP32-es számolóegységek végzik az FP64-es és FP16-os számításokat is, fele, illetve dupla sebességgel.

(#18) MongolZ: Szerintem valószínű, hogy az NV is kísérletezett már korábban a HBM-el, csak nem épített rá terméket mint az AMD.

[ Szerkesztve ]

(#18) MongolZ válasza Loha (#17) üzenetére


MongolZ
addikt

Szóval hiába jött ki előbb az AMD a HBM1-es VGA-val, a HBM2 elsősége az nV-é? Tényleg szív az nV amiatt, hogy nem tudott HBM-el "tesztelni"?

Bocsi, nem válasznak szántam.

[ Szerkesztve ]

(#19) antikomcsi


antikomcsi
veterán
LOGOUT blog (1)

Ezt a cikket már nincs erőm végigolvasni.

Kitudja, a végére kiderülne, hogy az nvidia tulajdonképpen megint nem csinált semmit, csak visszafejlődött úgy az NV47-ig.

(#20) namaste válasza Simid (#15) üzenetére


namaste
tag

Egy utasítás csak HP, SP vagy DP számokkal dolgozik, az ütemezőtől függ, hogy képes-e egyszerre kiadni egy SP és egy DP utasítást végrehajtásra.
Nem tudok olyan algoritmust, ami egy kernelen belül vegyesen használ SP és DP számokat.

Kutatnak olyan módszereket, amelyek két fázisban dolgoznak:
1. SP-ben gyorsan és energiatakarékosan kiszámolnak egy előzetes, kevésbé pontos eredményt,
2. a megkapott részeredményt átkonvertálják DP-re és DP számokkal tovább számolva egy pontosabb megoldást kapnak.

Esetleg még szóba jöhet, hogy egymástól független, eltérő pontosságú számokat használó feladatokat párhuzamosan futtatnak. Pl. gépi tanulás (HP), képfeldogozás (SP), n-body (DP). Ha lenne is ilyen, ki kell mérni, vajon megéri-e, azaz gyorsabb.

(#21) kikikirly válasza antikomcsi (#19) üzenetére


kikikirly
senior tag

:C

(#22) kpal


kpal
veterán

Izgalmas lesz az első tesztek ,összehasonlítva a régebbi generációkkal. Várom nagyon. :)

[ Szerkesztve ]

(#23) lenox válasza antikomcsi (#19) üzenetére


lenox
veterán

Nem, csak a Fermiig. Es mivel a lapka szempontjabol csak a per shader regiszterterulet nagysaga szamit, igy kb. ugyanazt is fogja tudni. Bar az is lehet, hogy nem, megoszlanak a velemenyek...

(#24) Simid válasza namaste (#20) üzenetére


Simid
senior tag

Loha, namaste köszi!
Ez alapján GCN ilyen mindenre jó, de semmire sem optimális megoldás?
Tudnátok estleg valami magyar vagy angol nyelvű írást arról, hogy a különböző feladatoknál milyen pontosságot használnak és miért?

[ Szerkesztve ]

(#25) #06658560 válasza Simid (#24) üzenetére


#06658560
törölt tag

Hogy mi mire jó, azt a hardverre írt szoftver dönti el. Ez nem desktop linux, hogy kenyérpirítón is fusson. A hardverhez írják a szoftvert.

(#26) Malibutomi válasza MongolZ (#18) üzenetére


Malibutomi
nagyúr

Papiron ovek az elsoseg, kaphato meg ugye jovo ev elejen lesz :)

(#27) Dragbajnok válasza MongolZ (#18) üzenetére


Dragbajnok
tag

Szerintem ez is nagyban segíthette az implementációt:
A memóriákhoz kapcsolódó érdekesség, hogy a GPU és a HBM2-es lapkák a TSMC CoWoS (Chip-On-Wafer-On-Substrate) technológiájával kerülnek egy közös átvezetőre (interposer), ami eltér az AMD tavaly bemutatott saját megoldásától. A konkurens AMD Fiji kódnevű GPU-jánál a grafikus processzort gyártó TSMC mellett az átvezető réteget készítő UMC, illetve a HBM chipeket szállító SK Hynix közreműködésére is szükség volt, az összeállítás végső fázisát pedig egy negyedik cég, az ASE végezte. Az Nvidia GP100-as chipjénél a folyamatok már házon belül, a TSMC üzemeiben történhetnek.Idézet Oli kiváló összefoglalójából.

Malibutomi
Az Nvidia DGX-1 ára 129 000 dollár, mely már előrendelhető, a szállítás pedig júniusban indul a kiemelt partnereknek. Később az OEM gyártók számára is elérhetővé válnak a P100-as kártyák, ugyanakkor a vállalat közleménye szerint erre jelen állás szerint egészen 2017 januárjáig kell majd várni, egészen eddig a cég saját hatáskörben értékesíti a P100-ra épülő megoldásokat. Szintén az előbb említett cikkből.Szóval már idén júniustól megy az értékesítés.

[ Szerkesztve ]

(#28) Abu85 válasza #06658560 (#9) üzenetére


Abu85
HÁZIGAZDA

IOMMU-n keresztül, vagyis a lehető legközvetlenebb formában.

(#13) namaste: A memóriavezérlőről csak annyi az adat, hogy nem a régi crossbar van benne, hanem valami új, de nem tudni, hogy mi. A normál keresztbe kötések ezekkel a széles buszokkal nem hatékonyak. Crossbarral egy külső 4096 bites buszhoz belsőleg 16384 bites kell.

Az ütemezés hasonlít a Fermihez. Amit áttettek szoftverbe a Kepler és a Maxwellnél, azt most visszarakták, persze modernizálva. Ennek az előnye, hogy a hardver teljesítménye kevésbé függ a szoftvertől.

A 32 GB-os csak később jön.
2 GHz-es HBM-ek vannak rajta, de az órajel attól is függ, hogy mennyit bír az interposer. A TSMC-é valószínűleg 1,4 GHz-ig bírja. Ez az első interposerjük, és tapasztalat nélkül ők sem csodatevők.

Utolsó bekezdés. ;)

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

(#29) Abu85 válasza Simid (#24) üzenetére


Abu85
HÁZIGAZDA

Nem létezik olyan, hogy teljesen optimális. Ha létezne, akkor mindenki olyat tervezne. Két dolog határozza meg, hogy egy architektúra milyen felépítést tartalmaz. Egyrészt nyilván az elérendő cél, másrészt ebből kiindulva az, hogy az alapdizájnnal a tervezett módosítások mellett ebből mi és hogyan kivitelezhető.
A gyártók egy adott alapra 4-8 generációt is felépítenek. Az Intelt, az AMD-t és az NV-t is limitálják bizonyos olyan döntések, amelyeket az alapok tervezésénél hoztak meg. Ha az aktuális alapot nézzük, akkor az AMD-nél ez a GCN, az Intelnél a Gen1, míg az NV-nél a Fermi. Az Intelnél látszik, hogy az alap mennyire limitálhat, mert náluk már olyan limitek is megjelennek, amelyeket csak óriási gyorsítótárakkal tudnak ellensúlyozni. Az NV és az AMD alapja még nem tart itt.

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

(#30) tibaimp


tibaimp
nagyúr

Akkor ezekből jönnek az asztali verziók is HBM2-val vagy GDDR5X-el?

A tehén egy bonyolult állat, de ÉN megfejtem...| 2016-tól az tuti, hogy az angyalok is esznek babot...

(#31) Zeratul


Zeratul
addikt

Eredetileg nem úgy volt ARM alaphoz optimalizálják?

(#32) Yutani válasza antikomcsi (#19) üzenetére


Yutani
nagyúr

Hol voltál az elmúlt 1-2 évben, amikor arról volt szó, hogy az Nv bizonyos területe(ke)n kiherélte a Maxwellt a Fermihez/Keplerhez képest, azért is sikerült olyan jó perf/w mutatót hozni? Más szóval a jelen (gamer) igényeit szem előtt tartva tervezte meg a Maxwellt.

Most, hogy szükség van a Maxwellből kihagyott egységekre, fogta a Fermi és a Maxwell szükséges és legjobb tulajdonságait, majd elkészítette a Pascalt.

[ Szerkesztve ]

#tarcsad

(#33) GodGamer5


GodGamer5
addikt

Szuper elemzés köszi! :R

"Többször látsz Game Over képernyőt, mint Michelle Wild f@szt." "It's not a Loop, it's a Spiral"

(#34) arn


arn
félisten

En orulnek, ha inkabb kulon lenne jatekos piacra szant verzioja redukalt fogyasztassal.

facebook.com/mylittleretrocomputerworld | youtube.com/mylittleretrocomputerworld | instagram.com/mylittleretrocomputerworld

(#35) Z10N válasza Abu85 (#28) üzenetére


Z10N
veterán

Ezekszerint a tsmc megoldasa bar lassabb, de a hazon beluli gyartas miatt olcsobb lesz. Mig a AMD-nel a sok 3rd party (umc, hynix, ase) miatt jobb a teljesitmeny, de tovabbra is dragabb lesz?

Ui: Bar engem ugy is max a gddr5x implementacio erdekel majd :)

[ Szerkesztve ]

# sshnuke 10.2.2.2 -rootpw="Z10N0101"

(#36) Abu85 válasza Z10N (#35) üzenetére


Abu85
HÁZIGAZDA

A TSMC megoldása sem lassabb igazából, csak ma még kiforratlan. De ez tök logikus, az UMC és az Amkor két évvel jár mindenki előtt ezen a területen. Rövidebb távon ez előny, mert ismerik a rendszert, ami a selejtek számában látszódik leginkább. Hosszabb távon viszont annak a bérgyártónak lesz előnye, aki beolvasztja ezt egy szolgáltatásba, mint a TSMC CoWoS, vagy a GloFo, akik az Amkor és az UMC technológiáját licencelik.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

(#37) Z10N válasza Abu85 (#36) üzenetére


Z10N
veterán

Igen, ez logikus. Marmint csak erre a generaciora ertettem. Nyilvan a kovetkezo korben mar masok lesznek a szolgaltatasok es a tenyezok. Szoval lehetseges, hogy amikor majd jon a "GTX1080Ti" akkor mar full speed lesz? Vagy az a ket ev nagyon komoly "tanulopenz" volt. Kerdes, hogy mennyibe kerulnek ezek a licenszek. Bar mondjuk biztos olcsobb, mint egyik gyarbol a masikba szallitgatni a chipeket. Meg ugye a logisztika is idobe telik.

# sshnuke 10.2.2.2 -rootpw="Z10N0101"

(#38) KAMELOT


KAMELOT
titán

Már készítem a zsetont a Ti-re :)

V1200 - 18CORE - SUPRIMX

(#39) Hubba12 válasza KAMELOT (#38) üzenetére


Hubba12
senior tag

250k-ig Hajlandó leszek én is el menni ha tényleg ilyen jó lesz:) :R Most már meg várom:D

Csak az ASUS!

(#40) namaste válasza Abu85 (#28) üzenetére


namaste
tag

"Crossbarral egy külső 4096 bites buszhoz belsőleg 16384 bites kell."
Kíváncsi lennék, szerinted hogy néz ki egy crossbar. Egy ábrát tudsz linkelni?

A GCN is használ az ütemezéshez szoftveres részt: az S_WAITCNT utasítást.

(#41) Abu85 válasza namaste (#40) üzenetére


Abu85
HÁZIGAZDA

Az, hogy logikailag hogy rajzolják fel lényegtelen, mert a hardverben az egyes csatornákhoz a különálló buszokat ki kell építeni. Ezért crossbar, mert minden mindennel direkten össze van kötve egy kisebb buszon keresztül. Ezért létezik ennél jobb módszer, mint például a ring, aminél irányonként csak akkora belső busz kell, ami megy kívülre és erre kell beállítani egy megfelelő címzést. A HUB ennél valamivel bonyolultabb, de megoldja a ring késleltetési problémáját is.

Ma már szinte minden ütemezési modell hibrid, vagyis egy hardveres és szoftveres ütemezés elegye, de kérdés, hogy milyen arányban. A Pascal esetében arról van szó, hogy amit az NV tranyóspórolás miatt kivett a Fermiből a Keplerben és a Maxwellben, azt most visszarakja.

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

(#42) namaste válasza Abu85 (#41) üzenetére


namaste
tag

Nem használnak olyan hálózatot, ahol minden csomópont minden csomóponttal össze van kötve. Túl sok tranzisztor és vezeték kell hozzá.
Eredeti crossbart sem használnak, ahol vízszintes és függőleges vezetékek, a csomópontokban pedig kapcsolók vannak.
Olyan crossbart használnak, aminél multiplexer-arbiter választ a csomópontba beérkező jelek közül egyet, amit továbbít, a többit várakoztatja.

Hogy épül fel a HUB? Erről semmi információt nem lehet találni.

(#24) Simid
Olyan oldalt nem tudok, ahol felsorolják milyen precizitást használnak.
Két példa mixed precisionra:
Az Amber (molekuláris szimuláció) SPFP módja vegyesen használ FP32, FP64 és integer számokat.
GPUPI benchmark

(#43) Fred23 válasza Loha (#17) üzenetére


Fred23
nagyúr

"NV-nál a Keplertől kezde az FP64-es (Dupla Pontosságú) számításokat külön FP64-es CUDA magok végzik, amik az FP32-es (SP) számítások alatt pihennek"

Vajon mikor terjednek el azok a játékok, amik nagyon igénylik a dupla pontosságú számításokat, és mi lesz akkor az NVIDIA-val? Ha már kevés lesz egy CPU az FP64-es számításokhoz, de nem lehet őket kiszervezni az NVIDIA GPU-ra se, mert az meg ebben gyönge? Ahogy jönnek a hatalmas tereket kezelő játékok -és biztosan lesz már 2017-ben is néhány-, át fogják tervezni vajon a GPU-jukat? Nincsenek elkésve? Vagy nem lesz még szükség sokáig sok FP64-es számításra játékokban? Egy jobb procira vajon meddig lehet ráterhelni az FP64-es műveleteket, ha azt választják majd ahelyett, hogy FP64-ben is erős GPU-kat tervezzenek?

Laikusként nagyon úgy tűnik, hogy az AMD-nek jelentős előnye lenne hirtelen, ha jönne néhány szuper játék, ami nagyon igényelné az FP64-es számításokat.

(#44) core i7 válasza Fred23 (#43) üzenetére


core i7
addikt

Akkor ezek szerint ha bejönnek ezek a játékok egy Kepler kártya erősebb lesz mint egy MAXWELL/PASCAL? (Csak mert kepler kártyám van :D )

(#45) Fred23 válasza core i7 (#44) üzenetére


Fred23
nagyúr

Attól még biztosan nem lesz erősebb, soktényezős dolog! :D Az sem biztos, hogy kiszervezik a GPU-kra a dupla pontosságú műveleteket a közeljövőben. Viszont valamikor biztosan szükséges lesz jobban rágyúrni mindenkinek a dupla pontosságra; ha mondjuk űrhajók csatáznak százával egy hatalmas térben, fedezékeket -pl. aszteroidák- használva, messziről egymást rakétázva, ágyúzva, kergetve hatalmas sebességgel a hatalmas térben... -ehhez kelleni fog az erős dupla pontosság!

(#46) core i7 válasza Fred23 (#45) üzenetére


core i7
addikt

csak mert Keplerek még nem voltak FP64 ben herélve :DDD

(#47) Fred23 válasza core i7 (#46) üzenetére


Fred23
nagyúr

Háát, attól függ, mi számít heréltnek! Vakok között a félszemű a Kepler kábé. Érdekes cikk szerintem.

Copyright © 2000-2024 PROHARDVER Informatikai Kft.