Hirdetés

Új hozzászólás Aktív témák

  • Abu85

    HÁZIGAZDA

    válasz b. #49433 üzenetére

    Ez játéktól függ, de az újabb driverekkel az AMD már nem csak az RT shaderekre alkalmazza például a dinamikus regiszterallokációt, hanem az egyes címekben bizonyos compute shaderekre is. Tehát amíg a többi hardvert limitálja a kihasználtságlimit a statikus regiszterallokáció által, addig az RDNA 4 képes úgy betölteni az adatokat a regiszterbe, hogy tényleg csak a használt adatok legyenek ott, így a nagyon gyilkos compute shaderek az RDNA 4-en sok konkurens wave mellett futnak. Ez egy shaderre lebontva akár +700-900%-ot is jelenthet, ami a teljes képkocka szintjén simán hozhat +10-20%-ot, ha a shader tényleg megterhelő volt. Erről az AMD nem sokat árul el, de elvileg tipikusan azokat a shadereket célozzák az egyes játékokban, amelyek a mai GPU-knál a minimális konkurens wave-re kényszerítik a multiprocesszort. Ez lehet akár azért, mert az adott shader nagyon terhel, vagy azért mert rosszul van megírva. Igazából mindegy miért van, a dinamikus regiszterallokáció mindkettőt hardveresen korrigálja. Ha pont ott van a teszthelyzet, ahol ez a shader lefut, ott sokat gyorsul az RDNA 4, mert a többi GPU-n ugyanaz a shader a memóriaelérésre vár, míg RDNA 4-en van konkurens wave, amit futtatni lehet. Viszont ezt nem minden címre engedélyezi az AMD a deadlock kockázat miatt, de nem kizárt, hogy egy-egy játékban egy-egy shadert kiválasztanak, hogy dynamic VGPR módban fusson.

    A másik dolog, amit az AMD csinál az általánosabb, és nem kell specifikusan flaggelni rá a drivert, hogy bizonyos kiválasztott shaderek máshogyan fussanak. Az RDNA 4 GPU-k memóriaalrendszere lehetővé teszi, hogy a multiprocesszorok ne sorosan, hanem dinamikusan, az elérhetőség sorrendjében kapják meg a memóriából igényelt adatokat. Ezt az AMD RT-vel prezentálta, mert erre fejlesztették a képességet, de bizonyos szituációkban, RT nélkül is nagyok hasznos fícsőr az Unreal Engine 5-ben, különösen az extrém magas poligonszámú, nanite-os jelenetekben, illetve Lumen és Virtual Shadow Maps alkalmazásakor. Az ok pedig az, hogy szoftveres comute shader raszterizáló alapesetben nagyon sok cache miss-be futhat, de az OOO memóriaeléréssel ezek gyorsabban lesznek kezelve. A Lumen esetében a sok rengeteg ray tracing query-n segít, míg Virtual Shadow Maps során nagyon sok a memory fetch, ami általánosan stallt eredményez a shaderekben, de ezt is sokkal gyorsabban lekezeli az OOO memóriaelérés.

    Nagyjából ezek azok a dolgok, amelyekbe egy UE5-ös játék esetlegesen belefuthat, és ilyenkor az RDNA 4 képességei sokkal hatékonyabban kezelik a helyzetet, mint bármelyik más GPU, mert más dizájn még nem rendelkezik hatékony dinamikus regiszterallokációval vagy OOO memóriaeléréssel.

    Az valószínűleg puszta véletlen, hogy az UE5 pont olyan irányba fejlődik, ami az RDNA 4 képességeinek éppen optimális. Az AMD ezeket a funkciókat RT-re fejlesztette, de mázlijuk van azzal, hogy az Epic arra viszi a motort, hogy RT nélkül is hasznot hozzanak.

Új hozzászólás Aktív témák