Hirdetés

2024. május 3., péntek

Gyorskeresés

Hozzászólások

(#1) Sub-ZeRo


Sub-ZeRo
nagyúr

Lassan tényleg elérik a cpu-ban a magok száma egy megtermett dinnyében lévővel... :DDD
Amúgy brutális...

"Ha egyedülállóval találkozunk, mindegy, mit mond, de biztos, hogy nem azért van egyedül, mert élvezi a magányt, hanem mert már megpróbált beilleszkedni a világba, de az emberek újra meg újra kiábrándítják."

(#2) Cefet


Cefet
aktív tag

Nekem elég lenne ebből egy chiplet is, nyomott áron... :B

(#3) DanD88


DanD88
tag

Mikor jönnek az 5ghz-re húzható 4 magos chipek 60 dolcsiért?

(#4) Tyrel válasza Cefet (#2) üzenetére


Tyrel
őstag

Ha Desktopon / Ryzenben (pletyka!) tényleg 2 ilyen chiplet lesz (Threadripperben meg 4??), és tegyük fel jóárasítva, gyári hibás Chipletekkel szerelt cumót veszünk, szóval minden CCX-ben legyen letiltva 1-1 mag... Az 2 chiplet, 4 CCX, az aszongya hogy 12 mag / 32 szál, várhatóan nem nagyon drágán, mivel (jelenlegi nevezéktanból kiindulva) ez mindössze csak a Ryzen 3600(X) lenne...

Túl szép, hogy igaz legyen?... :U

Szerk.: Abu amúgy ez a nagy modularitás nem fog a késleltetések rovására menni?...

[ Szerkesztve ]

Turenkarn

(#5) TRitON válasza Tyrel (#4) üzenetére


TRitON
aktív tag

A TR-ben 4-8 aktív chiplet lehet szvsz, csak nem 8, hanem 4 DDR4 memória csatornával.

Mi az? 3 lába van mégsem tranzisztor? - ??? - Traffipax...

(#6) poci76


poci76
aktív tag

Úgy látom, eddig nekem volt igazam. :D Továbbra is tartom, hogy a mainstream desktop Ryzen 3 egy darab chipletből fog állni, a szokásos max. 8 maggal. Mellette szerintem lesz drága (>$500) Ryzen 3 két chiplettel, max. 16 maggal.

(#7) Kronos3000


Kronos3000
senior tag

Komplett kis alaplap kinézete van.

Wasabi...

(#8) energy4ever válasza Tyrel (#4) üzenetére


energy4ever
addikt

" 12 mag / 32 szál" :F

(#9) Meteorhead


Meteorhead
aktív tag

Jaja, a This Week In HPC podcast 249. részében is ("AMD Throws Down EPYC Challenge to Intel; A Look Ahead to SC18") tárgyalják a témát. Nagyon durván hangzik minden részlete. SZVSZ a sikere azon fog múlni, hogy a chipletek alatti interposer réteget mennyire tudják megbízhatóan gyártani. A korai Vega ellátás is ezen csúszott el, hogy HBM még ha készül is (amiből szintén kevés volt), az interposerre ültetés kihozatali aránya nem volt fényes és sok volt a selejt, aminek következtében a lapkát és a memóriát is kukázni kellett. Azóta sok szilícium lefolyt már a Dunán, hátha fejlődtek és nem fog az ára emiatt elszállni.

(#10) hokuszpk válasza Tyrel (#4) üzenetére


hokuszpk
nagyúr

ez a 12 mag / 32 szal hogy jott ki ?
ujraszamolast kovetelek :D

Első AMD-m - a 65-ös - a seregben volt...

(#11) Duddi válasza DanD88 (#3) üzenetére


Duddi
aktív tag

Miért nem 6Ghz 6 mag + Ht az is csak 50 et érne meg...

Elvárásokat lehet támasztani mint a VR szemüvegnél: legyen olyan képe mint a valóság vagy jobb, legyen olyan könnyű hogy észre se vegyem, legyen vezeték nélküli, legyen hozzá a start napján több száz játék, és persze ha 100$ nál több akkor meg sem éri.

Nem azt kell nézni hogy te mitől csöppennél el és éppen mennyi pénz van a zsebedben. A dolgok nem így mennek.

Ők kiadják ami épp a legjobb amit csinálni tudnak te meg eldöntöd, hogy megveszed vagy sem. Csak azért hatalmas elvárásokat támasztani velük szemben hogy akkor az intel proci amit amúgy venni akarsz olcsóbb lesz.. Ha fan vagy legyél igazi fan és vedd meg 120$ i3 mat is ha épp ennyi az ára ne a másikra mutogass hogy azért ilyen drága mert az nem konkurens...

[ Szerkesztve ]

(#12) Lacc


Lacc
aktív tag

Ezekhez mikor jon ki az uj chipset?

(#13) Kristof93 válasza Meteorhead (#9) üzenetére


Kristof93
senior tag

Az Epyc eddig sem interposer-en volt hanem pcb-n.

(#14) S_x96x_S válasza Lacc (#12) üzenetére


S_x96x_S
őstag

>Ezekhez mikor jon ki az uj chipset?

Az új alaplapokkal (+PCIe gen 4.0 ) ?

Talán 2019.Q3 Képek már vannak róla, és addig még sok minden változhat.
A 2019-es CES-en lesz várhatóan bővebb infó.

De addig is a mostani EPYC alaplapokba be lehet tenni, hogyha a proci korábban kijönne.

AMD Rome Motherboard Pictured, Arrives In Q3 2019
". According to a motherboard vendor that displayed a new motherboard designed to support the Rome processors and PCIe 4.0, the first wave of fully-compatible Rome motherboards will arrive in Q3 2019, likely signalling the beginning of shipments for the Rome chips."
https://www.tomshardware.com/news/amd-rome-motherboard-epyc-cpu,38071.html

Mottó: "A verseny jó!"

(#15) Tyrel válasza hokuszpk (#10) üzenetére


Tyrel
őstag

Hát pont úgy ahogy írtam:
a pletyka szerint a Ryzen-en 2 chiplet lesz. 1 chipletben 2 ccx van. 1 ccx-ben pedig továbbra is 4 mag. Tehát 2x2x4, azaz 16 mag lenne a csúcs, de mint ahogy írtam nézzük a középkategóriát, tegyük fel hogy "selejtet" veszünk aminek minden CCX-ében le van tiltva 1-1 mag. A 2600-al párhuzamot vonva így jött ki az, hogy a majdani 3600-ban, a (szintén) 3 magos CCX-ekkel 12 mag kéne hogy legyen... ami sok, pláne középkategóriában. :U

Szerk.:
jaaa hogy a 32 szállal van baj? :D Az f el se tűnt, biztos ott gondolatban még a fullos chipnél jártam a 16 magjával...

[ Szerkesztve ]

Turenkarn

(#16) Pug válasza poci76 (#6) üzenetére


Pug
veterán

MIért is? Továbbra is csak I/O nélküli chipleteket láttunk... :U

(#17) DanD88 válasza Duddi (#11) üzenetére


DanD88
tag

Csak azért hatalmas elvárásokat támasztani velük szemben hogy akkor az intel proci amit amúgy venni akarsz olcsóbb lesz - ez így honnan is jött?

Amúgy meg biztos vagyok benne hogy 3-4 éven belül, de valószinű előbb is jön ilyen, még ha mondjuk nem is 5ghz hanem 4.5, meg mondjuk közelebb lesz a 100usd-hez mint a 60-hoz.

Persze amit mondsz, az is elképzelhető hogy akkor meg már majd 6 vagy 8 magost akar az ember.

(#18) Duddi válasza DanD88 (#17) üzenetére


Duddi
aktív tag

Bocs nem személyes akart lenni csak sokszor olvasok hasonlót: hogy ha nem tudja ezt meg azt arpirítóan alacsony áron akkor inkább ki se hozzák.

Remélem nincs harag.

(#19) kisbalázs válasza DanD88 (#3) üzenetére


kisbalázs
tag

már rég itt vannak lunk csak áron kell kicsit dolgozni

[ Szerkesztve ]

Johnny Mnemonic 2021:320gb-t töltött az agyába és majdnem meghalt, inkább pendrive a s?ggébe!

(#20) DanD88 válasza kisbalázs (#19) üzenetére


DanD88
tag

Akkor hogy tisztázzam magam, kis lapkát szeretnék zen2/3 alapon magas órajelekkel.

Mint ismeretes ilyenjük még nem volt a 200GE, 2200-2400GE is ugyanakkora szilikon mint a 2700X, csak a felét az igp teszi ki, valamint a 200GE-ben magok és IGP stream processzorok lettek letiltva.

Hogy terveznek e kisebb lapkákat chipletekre alapozva, és hogy az alsó szegmensben mikor lesz 7nm-es chipje amd-nek(és lesz-e igp nélküli, nem megnyirbált pci-e csatornaszám), ez a jövő titka - csak hangosan elmélkedtem...

(#21) paprobert


paprobert
senior tag

256 MB L3 cache.

Csak ennyi? :(

640 KB mindenre elég. - Steve Jobs

(#22) #95904256 válasza paprobert (#21) üzenetére


#95904256
törölt tag

Meg ott lesz 512MiB L4. :)

"640 KB mindenre elég. - Steve Jobs"
Ezt inkább BG-nek tulajdonítják, bár valójában ő sem mondott ilyet.

(#23) S_x96x_S válasza paprobert (#21) üzenetére


S_x96x_S
őstag

>256 MB L3 cache.
>Csak ennyi?

Már ez is dupla annyi (magonként) mint az EPYC 1-nél.

Ott a 32magosnál volt 64Mb
AMD EPYC™ 7601 : # of CPU Cores 32 : Total L3 Cache 64MB ( 8x 8MB )

most meg a 64 magosnál 256

mostani gen:
AMD EPYC 7601 32-Core Processor (4N 32C 64T 2.7GHz/3.2GHz, 1.33GHz IMC, 32x 512kB L2, 8x 8MB L3)

következő gen:
AMD Eng Sample: 2S1404E2VJUG5_20/14_N (64C 1.4GHz, 800MHz IMC, 64x 512kB L2, 16x 16MB L3)

Mottó: "A verseny jó!"

(#24) paprobert válasza S_x96x_S (#23) üzenetére


paprobert
senior tag

Szarkazmus volt, nagyon jól hangzik. ;)

Ez egyébként azt is jelenti hogy az L3 cache-ek közötti adatátkérések száma, ha nem is feleződni fog, de jelentősen csökkenni fog, mert már több olyan adat fér el benne, amire szükség lesz.

(#22) szintén /s ;)

[ Szerkesztve ]

640 KB mindenre elég. - Steve Jobs

(#25) pepeno1


pepeno1
tag

Én már azt várom, hogy ezt mikor teszik bele egy laptopba, mondjuk 256 GB RAM társaságában. :D
Remélem lesz majd hozzá gőzforraló kiegészítő is. :D

Azért mert a kacsa nem tud úszni, még nem a víz a hülye.

(#26) #65675776 válasza DanD88 (#20) üzenetére


#65675776
törölt tag

Maximum a kupakot rögzítő anyag van szilikonból ezekben a procikban.

(#27) Jim Tonic válasza DanD88 (#20) üzenetére


Jim Tonic
nagyúr

Ebbe a szilikon vs. szilícium dologba nagyon szeret mindenki belefutni. :DDD

Alcohol & calculus don't mix. Never drink & derive.

(#28) poci76 válasza Jim Tonic (#27) üzenetére


poci76
aktív tag

silicone vs. silicon

(#29) Malák


Malák
aktív tag

"Majdnem 300MB"
Ami 256MB. Minek kerekíteni felfele, ha a címben ez (nekem legalábbis) többet mondott volna, hogy 256MB cache.

Amúgy nagyon durva cucc!

Szerk: közben leesett, hogy a 64x512Kbyte valójában 32MB-re rúg, a kettő együtt meg 288MB, amire már belefér ez a kerekítés

[ Szerkesztve ]

(#30) #95904256


#95904256
törölt tag

Már nem elérhető az eredmény. Lehet, hogy nem is volt valós?

(#31) Cyberboy42


Cyberboy42
senior tag

Ez egy PALACSINTA! :D

...A teknős ezután pszichoanalitikusként kezeli az identitászavaros krokodilt...

(#32) joysefke


joysefke
veterán
LOGOUT blog

Ebből az látszik, hogy egy CPU chipleten belül két CCX-re vannak bontva a magok, egy CCX pedig négyet tartalmaz.

Ez nem hangzik valami jól, mert így a ZEN2 továbbviszi azokat a gyengeségeket amelyekkel a ZEN/ZEN+ jött és emiatt az eddig problémás helyzetekben (kevés szálas, IO intenzív kód) borítékolhatóan nem lesz jobb mint a konkurencia. Ott fog továbbfejlődni, ahol eddig is jó volt... :U

Első körben szvsz a nagy gyengeségek befoltozásának kellett volna prioritást adni, oda pedig jól jött volna a 8 magos CCX közös L3-mal. Érdemes lett volna odaírni, hogy 16x16MB L3 =/= 1x 256MB L3-mal (persze ilyen senkinek sem lesz)

(#33) S_x96x_S válasza joysefke (#32) üzenetére


S_x96x_S
őstag

Szerintem te még a Monolitikus chipeket szeretnél látni ( közös cache-el ) - de már nem ez a trend az AMD-nél.

>Első körben szvsz a nagy gyengeségek befoltozásának kellett volna prioritást adni,

Szerintem ez történt.
- Infinity Fabric-ot csiszolgatták ( second generation IF )
- AVX2 -öt duplázták
- "Optimized IO die improves latency and power"
- Security

teljes lista:

"
Zen 2
- World's first 7nm High Perf x86 CPU
- CPU Core Execution Enhancements
- 2nd Gen IF
- More Security Elements
- Modular Design
- Improved pipeline, DOuble loading point and load store
- Doubled core density
- Half energy per operation
- Improved branch predictor
- Better instruction pre-fetching
- Re-optimized instruction cache
- Larger op-cache
- FP with to 256-bit
- Doubled load/store bandwidth
- Increased dispatch/retire
- Maintained high throughput modes
- Security
- Memory Encryption with Increased Flexibility
- Hardware enhanced spectre mitigations
- Zen introduced a multi-chip approach
- Enabled configurability, increased peak compute
- Zen 2 Each IP is its optimal technology
- 14nm IO die
- 7nm CPU chiplets
- Optimized IO die improves latency and power
- Revolutionary new approach
"

>oda pedig jól jött volna a 8 magos CCX közös L3-mal.

Szerintem nem az volt az igazi szűk keresztmetszet, ami visszafogta a teljesítményt,
hanem az első generációs Infinity Fabric - és ezt most jelentősen átdolgozták.
Persze a ZEN2-eseknek máshol lesz már a szűk keresztmetszete.

Az igazi teszteknél majd megtudjuk a valóságot - de szerintem igéretes lesz a ZEN2

https://www.anandtech.com/show/13578/naples-rome-milan-zen-4-an-interview-with-amd-cto-mark-papermaster

[ Szerkesztve ]

Mottó: "A verseny jó!"

(#34) DanD88 válasza S_x96x_S (#33) üzenetére


DanD88
tag

Hmm... Igen, már az eredeti Zen sem maradt el sokkal inteltől, és igazából ez a modularitás az ami igazi aduász az amd kezében, logikus hogy erre fekszenek rá.

(#35) #95904256 válasza joysefke (#32) üzenetére


#95904256
törölt tag

Nem feltétlenül nyereség ha kétszer annyi mag osztozik egy dupla méretű L3-on.
Mindkét tényező ( magok száma, méret ) hátrányosan befolyásolja a késleltetést.

Persze így megmarad az a tulajdonság, hogy az adott chipleten belül sem egyforma sebességgel férnek hozzá egymás adataihoz a különböző magok. Lehet hogy ez furcsa, de nem "gyengeség". Pl. több foglalatos rendszerek esetében is hasonló a helyzet. Fura, de ez van. :)

[ Szerkesztve ]

(#36) joysefke válasza S_x96x_S (#33) üzenetére


joysefke
veterán
LOGOUT blog

Nem azt mondtam, hogy ne legyen moduláris, hanem hogy ahol masszív szűk keresztmetszet van, ott iktassák ki a szűk keresztmetszetet.

Az, hogy 4x mag / CCX az szerintem egy masszív szűk keresztmetszetet teremt ami érezhető mind asztali mind szerver fronton. Én azt vártam, hogy a 14+ =>7nm váltással sikerül 8CPU magot egyetlen, közös L3-mal összekötött egységgé fogni.

(#37) S_x96x_S válasza joysefke (#36) üzenetére


S_x96x_S
őstag

>Az, hogy 4x mag / CCX az szerintem egy masszív szűk keresztmetszetet teremt
> ami érezhető mind asztali mind szerver fronton.

mivel nincsenek még független ZEN2-es tesztek,
vagy ami infó van - az jelentős IPC növekedésről szól
emiatt az "érezhető szűk keresztmetszet" egészen máshol lesz mint ahol bárki várná - főleg az ZEN1 alapján spekulálva.

Ha az I/O die-ban valóban lesz egy böszme nagy L4-es cache, akkor csak picit fogod érezni a különbséget.
Valamint az L3 cache is a duplája lesz.

Szerver és HPC fronton a szűk keresztmetszet az Infinity Fabric volt.
Valamint valószínüleg 8 magos ccx-et tervezni most nem fért bele az időbe.

egy 4 magos CCX-nek megvan az az előnye, hogy
- ZEN2-es(7nm) Athlon procikat (max 4 mag )
- olcsó notebook APU-kat
- olcsó konzol chipeket ( semi custom )
lehet belőle összelegózni.

Ha igazán jól (skálázhatóak ) az Infinity Fabrik(v2) -
akkor oly mindegy , hogy 4core-os ccx -ből vagy 8core-os ccx-ből van összelegózva.

az Infinity Fabrik(v1) -nek a skálázhatóság volt a fő baja, a ccx-ek keresztbe-kasul kommunikáltak.
Hiába cseréled led a 4 magos ccx-et -> 8magos ccx-re , a skálázhatósági probléma ugyanúgy fenmarad.

Nézd meg dupla annyi magot javasolsz - ugyanakkora adatkapcsolatra ?
Nekem úgy tünik - hogy még rosszabb lesz az eredmény.

Nem a ccx-ekkel van a gond, hanem az összeköttetésekkel. A masszív szűk keresztmetszet - a kapcsolatokban van.

bővebben:
https://fuse.wikichip.org/news/1064/isscc-2018-amds-zeppelin-multi-chip-routing-and-packaging/

Mottó: "A verseny jó!"

(#38) joysefke válasza S_x96x_S (#37) üzenetére


joysefke
veterán
LOGOUT blog

Szerver és HPC fronton a szűk keresztmetszet az Infinity Fabric volt.
Valamint valószínüleg 8 magos ccx-et tervezni most nem fért bele az időbe.
...
az Infinity Fabrik(v1) -nek a skálázhatóság volt a fő baja, a ccx-ek keresztbe-kasul kommunikáltak.
Hiába cseréled led a 4 magos ccx-et -> 8magos ccx-re , a skálázhatósági probléma ugyanúgy fenmarad.

Ezzel tisztában vagyok. És minél több mag van egy CCX-ben, annál kevesebb CCX kell ahhoz, hogy ugyanannyi magos CPU-t összehozz, legyen az 8-16-32-64, tökmind1, tehát kevesebb CCX<->IF kapcsolatod is lesz. Azzal, hogy most gyorsabbá teszik az IF-et, nyilván nagyot csökkentenek az IF által jelentett szűk keresztmetszeten, de az attól még ott lesz, mert egy közös L3 még mindig gyorsabb mint az IF.

Manapság nem nehét olyan alkalmazásba belefutni, ami igényli az alacsony mag<->mag késleltetést és tud 4 fölötti maggal mit kezdeni.

Nem azt mondom, hogy monolitikusan kéne 64 magot legyártani, de szerintem 7nm-en úgy hogy még az IO sincsen benne a chipletben illett volna legalább azt a nyolc magot közös alacsony késleltetésű L3-mal megcsinálni.

egy 4 magos CCX-nek megvan az az előnye, hogy
- ZEN2-es(7nm) Athlon procikat (max 4 mag )
- olcsó notebook APU-kat
- olcsó konzol chipeket ( semi custom )
lehet belőle összelegózni.

Ez nagyon szép, de ezekből nincsen pénz:
-(1) ZEN-alapú konzol majd egyszer valamikor lesz, oda ráadásul jó lehet a félig selejt is (ami csak alacsony órajelen megy). Konzol chipen nincs sok nyereség.
-(2) ZEN2 Athlon még jó darabig biztosan nem lesz. A ZEN2 kapacitást szerintem nagyon sokáig teljes mértékben fel fogja szívni a szerver és a mainstream desktop teteje-közepe.
-(3) notebook APU: utolsó dolog ami miatt az AMD fejének főnie kell. Jelenleg itt még nem rúg labdába az AMD.

Ezzel szemben szerverben és főleg deszktopon most is van pénz és kell a minél versenyképesebb termék.

Ha igazán jól (skálázhatóak ) az Infinity Fabrik(v2) -
akkor oly mindegy , hogy 4core-os ccx -ből vagy 8core-os ccx-ből van összelegózva.

Az L3$ így is-úgy is sokkal gyorsabb lesz, ez pedig pld játékokban meg fog látszani. Gondolom Web és adatbázis szervereken is...

[ Szerkesztve ]

(#39) S_x96x_S válasza joysefke (#38) üzenetére


S_x96x_S
őstag

Januárban megtudjuk - az biztos, hogy más elképzeléseink vannak a szűk keresztmetszetről.
Ez nem baj.

összefoglalva az álláspontom:

---------------------

A 4magos ccx -> 8magos ccx-re való cseréből csak a programok egy része profitál, ott is akkor ha belefér az L3 cache-be, ha nem fér bele, akkor gáz .. és azt se növelheted a végtelenségig.

viszont abból, hogy az I/O die segítségével jobb latency-t és bandwidth -et igérnek, abból minden program profitál és mellette még skálázható is.

Valamint a ccx-ek mostani felépítésének megtartását az egyre jobb (szoftveres) ZEN1-es optimalizáció is elősegiti. Mind a windows mind a linux egyre jobban tudja kezelni a ZEN1 architektúriát.

A ZEN1 -nek a " latency + bandwidth." volt a szűk keresztmetszete. és ezen javítottak rengeteget!
persze ez csak az igéret. majd meglátjuk a tesztekben.

""
C: With all the memory controllers on the IO die we now have a unified memory design such that the latency from all cores to memory is more consistent?

MP: That’s a nice design – I commented on improved latency and bandwidth. Our chiplet architecture is a key enablement of those improvements.

"The architecture with the central IO chip provides a more uniform latency and it is more predictable."

""
https://www.anandtech.com/show/13578/naples-rome-milan-zen-4-an-interview-with-amd-cto-mark-papermaster

------

persze nem biztos, hogy jól látom.
De szerintem ezt a témát az AMD mérnökei eléggé kielemezték. és nem véletlen, hogy ezt az arhitektúrát alakították ki.
Nem hiszem, hogy azért választották ezt az architektúrát, hogy lassabb legyen a ZEN2.

------

Mottó: "A verseny jó!"

(#40) joysefke válasza S_x96x_S (#39) üzenetére


joysefke
veterán
LOGOUT blog

Nekem nem a CCX- koncepcióval magával van gondom, nem is azzal, hogy a skálázódást kisebb egységek összedrótozásával illetve külön IO-chippel oldják meg, hanem azzal, hogy ezek _mellett_ a 4mag/CCX dologhoz nem nyúltak és nem bővítették. (6 vagy 8 mag per CCX)

Az, hogy ez jelenleg a ZEN/ZEN+ esetén bizonyos alkalmazásokban visszafogja a teljesítményt az nem kérdés. A ZEN2 IF-je ezen biztosan javítani fog, majd meglátjuk mennyit, illetve az is, hogy ezek után mekkora lesz a ZEN2- erősen IO-/mem- intenzív threadekben mutatott produkciójának az elmaradása attól amit a magok nyers ereje és órajele alapján várnánk. Remélem ez százalékban kifejezve lényegesen kisebb teljesítményveszteséget fog jelenteni a kérdéses applikációkban, mint most a ZEN+ esetén.

De szerintem ezt a témát az AMD mérnökei eléggé kielemezték. és nem véletlen, hogy ezt az arhitektúrát alakították ki. Nem hiszem, hogy azért választották ezt az architektúrát, hogy lassabb legyen a ZEN2.

Ez nem érv semmire. Az intel mérnökei és marketingesei is sokmindent kielemeztek mostanában ugyanúgy ahogyan mégelőtte az AMD emberei a Bulldózert...

(#41) paprobert válasza joysefke (#40) üzenetére


paprobert
senior tag

Kétség ne férjen hozzá, a CCX-en belüli kommunikációhoz is tranzisztorok kellenek. Részben valószínűleg ezért is maradtak a 2*4-es felosztásnál, mert ez egy hatékony csoportosítás. A belső magok 8-ra emelése valószínűleg nem csak duplázta volna, hanem még tovább hízlalta volna a szükséges összeköttetéseket.

A méretnövekedés pedig megakadályozott volna elég sok mindent. Alacsonyabb órajelek, nagyobb lapkaméret, több defekt, és ezzel akár egy ilyen 64 magos Epyc összerakása is megkérdőjelezhetővé válna.

640 KB mindenre elég. - Steve Jobs

(#42) S_x96x_S válasza joysefke (#40) üzenetére


S_x96x_S
őstag

>Nekem nem a CCX- koncepcióval magával van gondom, ...
> hanem azzal, hogy ezek _mellett_ a 4mag/CCX dologhoz nem nyúltak
> és nem bővítették. (6 vagy 8 mag per CCX)

Ha én elkezdem analizálni a problémát ( Root cause analysis ) akkor rákérdezek
Q: miért is gyorsabb a monolitikus design ( több mag összedrótózava ) mint a ccx/chipletes?
A: " latency + bandwidth."
Q: Hogyan lehet ( " latency + bandwidth.") -en javítani ?
A: Több féleképp.
A1: picivel több magszám: (6vagy8) - de ez nem skálázható - csak részben oldja meg a problémát
A2: picivel több programszál (thread) hasonló mint az A1.
A3: I/O Die , Áttervezett Infinity Fabric ( skálázható megoldás ) Főleg mivel a GPU kapcsolatot is megoldja.

Szóval akkor az A3 -re kell tenni most a fókuszt mert az a szűk keresztmetszet. Ha ezt áttervezzük, akkor mindenhol érzékelhető teljesítménynövekedést kapunk.
Megoldja az APU ( " latency + bandwidth.") ( CPU - GPU kapcsolódási ) problémát.

De mi legyen majd a ZEN3 -ban és a ZEN4 -ben?
Ha a ChipHell -es legújabb infó igaz, akkor
Zen 3: SMT4
Zen 4: AVX512

az SMT4 - 4 szállat jelent. Az IBM Power most SMT8-nál tart.
( "POWER8 provides eight SMT hardware threads/core (or SMT8)" )

Vagyis ha igazak a pletykák, akkor az AMD a több szállas utat ( is ) választotta

Persze ettől még lehet másik ccx-e is az AMD-nek. ( volt erről pletyka , hogy kétféle ccx-lesz )
mindenesetre valami ok miatt az EPYC2 -ben ilyen várható.

De az is lehet, hogy a program rosszul olvasta ki az L3-as cache-t , volt ilyen tipp is.

Vagyis nem lehet tudni semmi biztosat.
A teljesítményre meg végképp nem lehet következtetni azon kivül, amit az AMD eddig is megadott IPC ügyben.

[ Szerkesztve ]

Mottó: "A verseny jó!"

(#43) hokuszpk válasza paprobert (#41) üzenetére


hokuszpk
nagyúr

"belső magok 8-ra emelése valószínűleg nem csak duplázta volna, hanem még tovább hízlalta volna a szükséges összeköttetéseket."

a 4-es ccx-nel hogy minden mag ossze legyen linkelve, magonkent kell 3 if, a halo ossz 6 kapcsolatot tartalmaz. nyolcas ccx = 7 if/mag, a halo 28 osszekotesre hizik.
ez azert elvitte volna a 14 -> 7nm valtassal beepitheto plusz tranzisztorok zomet.

Első AMD-m - a 65-ös - a seregben volt...

(#44) paprobert válasza hokuszpk (#43) üzenetére


paprobert
senior tag

Igen, erre gondoltam. Köszi a kiegészítést.

640 KB mindenre elég. - Steve Jobs

(#45) hokuszpk válasza paprobert (#44) üzenetére


hokuszpk
nagyúr

azert egeszitsuk ki a szamolast, 2x4 azaz 8 mag => 2x6 = 12 link + a ccxek kozotti kapocs, de meg igy is csak a 8-as ccx megoldas felenel jarunk.

[ Szerkesztve ]

Első AMD-m - a 65-ös - a seregben volt...

(#46) joysefke válasza paprobert (#41) üzenetére


joysefke
veterán
LOGOUT blog

Az intel 14nm-en hatékonyan le tud gyártani mainstream vonalra 6-8 magos procikat CCX-es trükközés nélkül. Ha 14nm-en már most -és már jó ideje- le lehet ezeket költséghatékonyan gyártani, akkor nekem nehéz elhinni, hogy 7nm-en ne lehetne egy 6 vagy 8 magos CCX-et egyben legyártani illetve hogy kezelhetetlenül megdobná a tranzisztor mennyiséget.

A méretnövekedés pedig megakadályozott volna elég sok mindent. Alacsonyabb órajelek, nagyobb lapkaméret, több defekt, és ezzel akár egy ilyen 64 magos Epyc összerakása is megkérdőjelezhetővé válna.

(#47) DanD88 válasza joysefke (#46) üzenetére


DanD88
tag

Talán az AMD nem engedheti meg magának hogy legyen egy 8, egy 18, meg egy 28 magos dizájnja is?

Vagy csak jobban megéri nekik megcsinálni egy dizájnt ami aztán jó a 4, 6, 8, 12, 16, 24, 32, 48, 64 magra is?

(#48) #95904256 válasza hokuszpk (#45) üzenetére


#95904256
törölt tag

Szerintem a CCX-en belüli magok a koherens L3-on keresztül látják egymást, így nincs köztük semmiféle link aminek a száma exponenciálisan növekedne a magok számával. Az L3 cache vezérlő bonyolultsága ugyan növekszik, de csak lineárisan. Persze az L3 vezérlő bonyolultságával együtt növekszik valamelyest a gyorsítótár késleltetése is.

(#49) joysefke válasza DanD88 (#47) üzenetére


joysefke
veterán
LOGOUT blog

Köszönöm az okos hozzászólást!

(#50) #65675776 válasza joysefke (#49) üzenetére


#65675776
törölt tag

Mert melyik része nem igaz? Téglából is lehetne akkorát gyártani, hogy 2-3 elég legyen egy egész falhoz. Max a kemencébe rakott példányoknak jó esetben a 5-10%-a lenne használható, és ami jó sem használható annyira hatékonyan, rugalmasan. Vannak előnyei a monolitikus chipeknek is, de legalább annyi hátrányuk is, ha nem több. A gyárthatóság egyre nagyobb probléma lesz, elvégre az egyre kisebb csikszélességek egyre drágábbak, tehát a rossz kihozatal egyre nagyobb veszteséget jelent. Nem véletlen, hogy a nagyobb szerverprociknál az intel is MCM-et használ inkább megint. Egy akkora monollitikus CPU csak nagyon alacsony kihozatallal lenne gyártható. Még szerverpiaci árréssel számolva sem érné meg.

(#51) joysefke válasza #65675776 (#50) üzenetére


joysefke
veterán
LOGOUT blog

Úgy látom te is megértetted :U

Talán az AMD nem engedheti meg magának hogy legyen egy 8, egy 18, meg egy 28 magos dizájnja is?

Vagy csak jobban megéri nekik megcsinálni egy dizájnt ami aztán jó a 4, 6, 8, 12, 16, 24, 32, 48, 64 magra is?

Nem mondtam hogy több CCX/chiplet design legyen és azt sem mondtam, hogy hatalmas legyen egy CCX. Azt mondtam, hogy a 4mag/CCX egyértelműen visszafogja az architektúrát.

14-ről 7nm-re lépve bőven nő annyit a tranzisztorsúrűség, hogy beleférjen 4 helyett 6 vagy 8 mag abba a CCX-be.

Vannak előnyei a monolitikus chipeknek is, de legalább annyi hátrányuk is, ha nem több. A gyárthatóság egyre nagyobb probléma lesz, elvégre az egyre kisebb csikszélességek egyre drágábbak, tehát a rossz kihozatal egyre nagyobb veszteséget jelent.

Talán el kéne olvasni -és értelmezni- hogy mit írtam. Mégis hol írtam én, hogy monolitikus processzort gyártsanak?

(#52) S_x96x_S válasza joysefke (#51) üzenetére


S_x96x_S
őstag

>Azt mondtam, hogy a 4mag/CCX egyértelműen visszafogja az architektúrát.

32, 48 és 64 (128 !?) magnál extrém minimális az a visszafogás amitől te tartasz.

és itt már a most javított I/O die (Lattency+bandwith) számít.

egy 8 magos AM4-es procinál persze ez is fontos lehet,
de egy erre optimalizált AM4-es I/O die -al itt is lehet (Lattency+bandwith) hasonlóan emelni a sebességet.

durva példa:
- I/O die (L4?) cache - hozzáad mindenhez +12% sebességet.
- Az L3 cache szintén hozzáad +3 %-ot
- A 2x 4ccx -es kivitel - meg néhány esetben levesz 5% sebességet.

Ha jól csinálják, akkor a pozitiv fejlesztések ellensúlyozzák a néha megjelenő hátrányt a 4magos ccx -es kiviteltből eredendően.

Mottó: "A verseny jó!"

(#53) joysefke válasza S_x96x_S (#52) üzenetére


joysefke
veterán
LOGOUT blog

32, 48 és 64 (128 !?) magnál extrém minimális az a visszafogás amitől te tartasz.

Honnan veszed, hogy "extrém minimális" lesz sok mag mellett? Egyrészt még nincs kint, másrészt jelenleg a ZEN-nél sem minimális ez: mind deszktopon mind szerveren vannak olyan feladatok ahol lényegesen gyengébben muzsikál a ZEN+ mint a konkurencia ezek pedig jelenleg a CCX<-IF->CCX kommunikációra vezethetőek vissza.

Deszktopon ez úgy tűnik semennyire nem fog változni, ugyanúgy megmarad a <4-mag> <=IF=> <4-mag> rendszer mint potenciálisan szűk keresztmetszet kicsit javított késleltetésekkel. Játékokban ez továbbra is vissza fog ütni.

(#54) S_x96x_S válasza joysefke (#53) üzenetére


S_x96x_S
őstag

>Honnan veszed, hogy "extrém minimális" lesz sok mag mellett?
>ezek pedig jelenleg a CCX<-IF->CCX kommunikációra vezethetőek vissza.

64 magnál ugyanúgy megmaradnak a CCX-ek - nem lesz monolitikus design.
úgyanúgy kell kommunkálni.
A te javaslatoddal csak részben lett megoldva a probléma.
Viszont a többi fejlesztéssel ezt a problmát minimalizálni lehetett.

A ZEN1 érzékeny volt a memórisebességére és a késleltésre. Ha ezt lecserélik és duplázzák az L3-at,
akkor a te általad jelzett ZEN1-es problémát minimalizálták.

A mostani konkurenciával meg hiába hasnlítod össze. extrém magszám felett ők is ragasztóznak.

>Deszktopon ez úgy tűnik semennyire nem fog változni,
>ugyanúgy megmarad a <4-mag> <=IF=> <4-mag> rendszer
>mint potenciálisan szűk keresztmetszet kicsit javított késleltetésekkel.

Az Intel monolitikus designjával ne hassonlítsd össze, főleg mert

az új Intel desing (dual-ring?) meg lehet, hogy másolja az AMD-t.
"
There is also some suggestion Intel might utilise a dual ring bus design for this Comet Lake chip, instead of the single ring bus used for the i9 9900K, or the mesh design picked up by the similarly ten-core i7 7900X and upcoming i9 9900X. That’s an intriguing thought and could possible suggest a move to something more akin to AMD’s CCX design.

With this Comet Lake rumour that would potentially suggest a pair of either five- or six-core chips (with one core disabled) arrayed in a similar way to the quad-core CCX of Ryzen. And that sort of setup will need a whole lot of space.
"
https://www.pcgamesn.com/intel-comet-lake-cpu-10-core-14nm

Ha az Intel össze tud rendesen ragasztózni 2 chipletet - akkor az AMD-nek is képesnek kell lennie rá.

>Játékokban ez továbbra is vissza fog ütni.

meglátjuk mivel kompenzálja ezt az AMD. Ha lesz egy böszme nagy L4-es cache, akkor kevésbé lesz érzékeny a DDR4 memória sebességére , jobb lesz a játékoknál is.
és nem lehet annyira észrevenni mint most.

Mottó: "A verseny jó!"

(#55) #95904256 válasza joysefke (#53) üzenetére


#95904256
törölt tag

Nem egészen értem, hogy miért látod jelentős problémának, hogy csak 4 mag osztozik az L3-on és a többi magot csak buszon keresztül tudják elérni. Nézd meg pl. a sokmagos Intel szerverprocesszorok felépítését ( Skylake-SP ):

Itt minden mag a buszon csücsül a saját kis L3 cache darabkájával. Ők sem problémáztak rajta.

[ Szerkesztve ]

(#56) joysefke válasza #95904256 (#55) üzenetére


joysefke
veterán
LOGOUT blog

Nem egészen értem, hogy miért látod jelentős problémának, hogy csak 4 mag osztozik az L3-on és a többi magot csak buszon keresztül tudják elérni

Két okból:

0,
A legnagyobb probléma, hogy van pár fontos applikáció ahol a ZEN1/1+ már bebizonyította, hogy problémákba fut a jelenlegi "4 mag/CCX + IF" konstrukció. Játékok, Adatbázisok, Webszerverek(?). https://www.anandtech.com/show/11544/intel-skylake-ep-vs-amd-epyc-7000-cpu-battle-of-the-decade/18

1,
Mert így az L3$ sok kis darabra oszlik. Ha pld 16 db CCX van egyetlen processzorban, akkor a teljes L3$ 16 db szeletkében van. Ha pld 8db CCX-ből oldanának meg ugyanakkora magszámot (kétszer annyi mag per CCX) akkor kétszer akkora lenne egyetlen L3$ szeletke. 16x 16MB-nál sokkal jobb a 8x 32MB.

2,
Az Intel topológiában amit linkeltél, még így is sokkal alacsonyabb a cache késleltetés annál, mintha az Epyc1-ben egy a lokális CCX- L3 cachén kívüli adatot probálnál elérni:

https://www.anandtech.com/show/11544/intel-skylake-ep-vs-amd-epyc-7000-cpu-battle-of-the-decade/13

Még egyszer, nem azt mondom, hogy a CCX+IF/Chiplet nem volt hatalmas ötlet. Azt mondom, hogy a 4x Core/CCX design mind desktopon mind szerveren is bizonyos feladatokban érezhetően gyengélkedik. Nem minden feladatban, de van ahol nagyon. ennek megfelelően én azt vártam, hogy ezt a keresztmetszetet kibővítik legalább 6 de inkább 8 mag/CCX-re.

(#57) hokuszpk válasza #95904256 (#48) üzenetére


hokuszpk
nagyúr

bazz. "V" a Lóban !

[ Szerkesztve ]

Első AMD-m - a 65-ös - a seregben volt...

(#58) #95904256 válasza joysefke (#56) üzenetére


#95904256
törölt tag

0: Ha a linkelt tisztben valóban a CCX-ek közti kommunikáció miatt szerepelt rosszul a ZEN, akkor jó hírem van. A Zen2-ben sokkal kisebb késleltetésű lesz az IF, így máris jelentősen csökken az értelme annak, hogy 4mag/CCX-ről egy lassabb L3-mal rendelkező, de 8magos CCX-re váltsanak.

1: Az általad linkelt tesztben szereplő Intel processzorokban még több és kisebb részből áll össze az L3. Mégis jobb eredményt produkálnak, nahát... lehet, hogy mégsem itt van a kutya elásva. :)

2: "Az Intel topológiában amit linkeltél, még így is sokkal alacsonyabb a cache késleltetés" Feltetted a kérdést, hogy vajon miért? Azért mert a gyűrűs buszuk jóval kisebb késleltetésű. Jó hírem van! A Zen2-ben sokkal kisebb késleltetésű lesz az IF!

Nahát, két pontban is az jött ki, hogy inkább a magok közti busz sebességére kell gyúrni.
Szóval érted, az a probléma amit említettél orvosolható azzal, hogy erre gyúrnak.

(#59) awexco válasza #95904256 (#58) üzenetére


awexco
őstag

Nekem gyanús , h az AMD hoszú távra tervezte az iF-et 2-3 nano-n többrétegű prociké a jövő . Addig van idejük kitapasztalni , tökélyre reszelni .

I5-6600K + rx5700xt + LG 24GM77

(#60) DanD88 válasza Duddi (#18) üzenetére


DanD88
tag

Amúgy majdnem "van már ilyen". Az 55$-os kis Athlon 200GE-t lehet már húzni MSI lapokban, csak kérdéses hogy megpróbálják-e majd ezt idővel ellehetetlíteni.

Copyright © 2000-2024 PROHARDVER Informatikai Kft.