Keresés

Új hozzászólás Aktív témák

  • HSM

    félisten

    válasz Petykemano #4413 üzenetére

    Egyébként, hatékonyság témakör. Szerintem érdekes, a gyári BOOST-hoz képest mekkora tartalék van akár egy Zen2-ben is. Én ezt mértem: [link] . Elég impozáns szvsz perf/watt-ra amit a boost nélküli 3,6Ghz órajelén produkált.

    #4415 S_x96x_S : A dekóderes rész nekem ott nagyon sántít, hogy nincs figyelembe véve, hogy az x86 komplex utasítás architektúra, azaz elviekben (!!!) kevesebb utasításból meg tudod csinálni ugyanazt, tehát a "dekóderszám x órajel" metrikát erős fenntartásokkal kezelném egy RISC rendszerrel összehasonlítva.

    #4426 Petykemano : "Minél nagyobb a ROB (Re-order buffer), annál nagyobb a soron kívül, párhuzamosan végrehajtható utasítások száma"
    Ami a ROB-ot illeti, vélhetőleg ott is azért sok tényezős az egyenlet. Például felső korlát a végrehajtó egységek száma a CPU-n belül. :D Annál nagyobb ROB-ot beépíteni pazarlás, mint ami a végrehajtó egységek hatékony működéséhez az adott csipen indokolt. A Ryzeneken pl. ott az SMT és az óriás L3, ami szintén sokat segíthet utasításokkal ellátni a végrehajtókat és átlapolni az esetleges várakozási időket.

    Ami az X86 utasításkészlet átalakítását illeti, az erősen problémás, hiszen az X86 legnagyobb előnye a kompatibilitás. Ha csinálsz belőle egy inkompatibilis verziót, akkor már jobban járnál, ha alapoktól átterveznéd az egészet egy hatékonyabb rendszerre.

    "Vajon elképzelhető-e, hogy a 8 decoder beépíte azért lehetséges, mert a sűrű 5nm-en elképesztően rövidek a késleltetések, kicsi a delay."
    Szvsz ezt máshogy értik.Ha lassú lenne a dekóder (azaz túl komplex), akkor csökkenne az elérhető órajel, ez nyilván az x86-nál okozhatna problémát.

  • S_x96x_S

    addikt

    válasz Petykemano #4413 üzenetére

    > A zen3 mag teljesítménye és fogyasztása optimalizálható olyan szintre,
    > amikor már csak ~30% választja el a M1 magjaitól.

    pár napja volt egy érdekes elemzés az M1 és az x86 architektúra közötti eltérésről ..
    amiben a szerző az M1 Firestorm - nál azt emeli ki, hogy
    8 párhuzamos utasítás dekódere van, mig az x86-nál az eltérő utasításhosszak miatt ez 4
    ( vagyis a fele ( #1. )
    és emiatt (is) az M1 60%-on (3.2Ghz) tudja hozni az 5Ghz-es ZEN3 teljesítményét. ( #2. )

    megj: persze a ZEN2-nél a microde-os végrehajtás és sok más dolog is - a dekódolás után 8 utasra változott, de a 4-way -es utasításdekóder maradt .. a ZEN3-nál is ( Decode: 4-way )
    ( Az Inteles Ice-lake -re 5-way -t irnak , vagyis nem lehetetlen az 5 utas dekóder. )

    (#1)"And this is where we see the huge differences. The biggest baddest Intel and AMD microprocessor cores have 4 decoders, which means they can decode 4 instructions in parallel spitting out micro-ops.
    But Apple has a crazy 8 decoders. Not only that but the ROB is something like 3x larger. You can basically hold 3x as many instructions. No other mainstream chip maker has that many decoders in their CPUs."

    (#2)"As far as I remember from performance benchmarks the newest AMD CPU cores, the ones called Zen3 are slightly faster than Firestorm cores. But here is the kicker, that only happens because the Zen3 cores are clocked at 5 GHz. Firestorm cores are clocked at 3.2 GHz. The Zen3 is just barely squeezing past Firestorm despite having almost 60% higher clock frequency.
    So why doesn’t Apple increase the clock frequency too? Because higher clock frequency makes the chips hotter. That is one of Apple’s key selling points. Their computers unlike Intel and AMD offerings barely need cooling."

    https://erik-engheim.medium.com/why-is-apples-m1-chip-so-fast-3262b158cba2
    HN: https://news.ycombinator.com/item?id=25257932

Új hozzászólás Aktív témák

Hirdetés