Új hozzászólás Aktív témák

  • S_x96x_S

    addikt

    Az új CPU-s "SME" ( mátrix) támogatás az Apple M4 -ben elég érdekes[1]

    és akár az AMD is lemásolhatja,
    pl. úgy hogy egy ZEN6-os CCD-be betesz egy XDNA-t és tesz hozzá egy AMX-es utasítás wrappert ( Ami az Inteles Mátrix utasítás készlet )
    és akkor a nagy X3D L3-as cache-t is ki tudja használni.

    Persze az I/O die-ba helyezett XDNA - mellett is sok érv szól,
    de ide már kell egy külön cache - ami persze sose árt.

    ----------------

    [1]
    "Apple's matrix accelerator is a dedicated hardware unit — it is not part of the CPU core. There is one AMX/SME block in a CPU cluster, shared by all CPU cores. This has a number of interesting consequences. First, the matrix accelerator has access to much higher bandwidth than the individual CPU cores, since it is directly fed from the cluster L2. Second, the latency of executign SME instructions is high, as data communication needs to happen via the L2 cache (there is presumably a fast control bus to share the execution state). Third, one does not need to resort to parallel programming to harvest the performance benefits of SME. Initial experiments suggest that a single CPU tread can already achieve peak processing rate on the SME unit. Finally, those seeking highest possible performance can use on-CPU SIMD (Neon) and SME simultaneously for an additional boost."
    https://github.com/tzakharko/m4-sme-exploration

Új hozzászólás Aktív témák

Hirdetés