Egyedi AI és Kriptovaluta-Bányász Klaszter Építése – Valóban „Idióta” Projekt?, avagy Utazás a Nagy Teljesítményű Számítástechnika Világába
Ismét egy „idióta” A.I. projekt, hogy meglovagoljam az aktuális trendeket...
Vagy lehet, hogy mégsem? Évek óta tervezem, olvasok, tanulok és vásárolok – de mostanra elérkezett az idő: ténylegesen belevágok, lesz, ami lesz!
Tartalomjegyzék:
(A linkek a cikkek megjelenése után lesznek elérhetők.)
Hirdetés
- 1. Cikk: "Ismét egy "Idióta" A.I. Projekt, hogy meglovagolja az aktuális trendeket..." - Az Első Cikk ITT olvasható.
- 2. Cikk: "AI (és másra is használt) Cluster építése" - A Második Cikk ITT olvasható.
- 3. Cikk: "AI Kérdés érkezett - 3600 soros Spagetti kód refaktorálása és budget" - A Harmadik Cikk ITT olvasható.
- 4. Cikk: "AI Cluster - A Projekt céljai, a Cluster felépítésének okai" - Folyamatban
- 5. Cikk: "AI Cluster - Hardver Összesítő, tervezett felépítés" - Aktuális Cikk.
- 6. Cikk: "Hardverek tesztelése és firmware-ellenőrzés" - Tervben....
- 7. Cikk: "Hálózati konfiguráció (Gépek egymás közti hálózata, és külön hálózaton a Termináláshoz)" - Tervben...
- 8. Cikk: "Debian 13 alaprendszer telepítése" - Tervben...
- 9. Cikk: "Kubernetes és Docker telepítése" - Tervben...
- 10. Cikk: "Hálózati konfiguráció (Független, különálló hálózat az Internet eléréséhez!)" - Tervben...
- 11. Cikk: "Tesztek, Monitorozás, Virtuális gépek (VM-ek) telepítése" - Tervben...
- 12. Cikk: "VM-ek beállítása (Kvóták), tervezet adatmentési megoldások" - Tervben...
- Stb.
- X-edik Cikk: "A megvalósítás során előkerült hibák, és azok megoldásai (Gyűjtemény)" - Tervben...
(A változtatás jogát fenntartom! A cikkek sorrendje a projekt előrehaladtával módosulhat, és további témák is felmerülhetnek, összevonások is előfordulhatnak.)
Az utóbbi években rengeteg időt, energiát és nem kevés anyagi forrást áldoztam arra, hogy a mesterséges intelligencia (AI) fejlesztésére egy saját szerverklasztert hozzak létre. Talán kívülről nézve „őrült” ötlet, vagy egyszerűen csak a technológiai trendek meglovaglása, de számomra komoly vízió és progresszív tanulás eredménye ez a projekt.
Sajnos a Rrohardver lapcsalád szerverhiba miatti leállása és kiesése a cikk megjelenése utáni pár napon belül következett be, és nem teljesen szöveg-azonos mentéssel rendelkeztem, így nem garantálható, hogy pontosan ugyanaz lett a cikk. Sajnálatosan a hozzászólások is törlődtek, így ezek pótlására már nem lesz lehetőség... Igyekeztem ugyanazt visszaadni!
A technológia folyamatosan változik, a gépi tanulás a látómező centrumába kerültek – engem pedig mindig is érdekelt, hogyan lehet ilyen nagy teljesítményű klasztereket üzemeltetni, évek óta terveztem, azonban az elmúlt pár évben a nyílt forráskódú projektek elszaporodása érthetőbbé, és könnyebben elérhetővé is tette ezeket!
Ez a projekt nem pillanatnyi ötlet szüleménye, hanem több évnyi tanulás, hardvergyűjtés és tervezés csúcspontja. A fő cél egy olyan robusztus, igazán sokoldalú szerverklaszter létrehozása, amely stabil, skálázható, egyszerre több kísérleti MI-modell futtatására és az üres, állási időkben
kriptovaluta-bányászatra is képes, mindezt a lehető leghatékonyabb ár/teljesítmény arány mellett.

Rendszerterv és Infrastruktúra
A klaszter három fő helyszínen, mégis szervesen kapcsolódva működik majd:
- Szerverterem: Internetkapcsolatot, összeköttetést és “Real-Time” internetes elérést biztosító
elsődleges csomópont.
- Privát, bérelt műhely: Itt kap helyet a fő hardverpark szerver szekrénybe rendezve.
- Otthoni munkaállomás: Integráció, irányítás, finomhangolás.
- egyszerre több kísérleti AI-modell futtatására képes,
- egyszerre több helyszínt integrál: szerverterem, privát műhely és az otthoni munkaállomás.
- szabad kapacitásait kriptovaluta-bányászatra használja.
Finanszírozásban nagy segítség egy közeli befektető barátom – több hardvert is neki köszönhetek –, de a költségek egy jelentős részét saját kriptós tevékenységem révén teremtettem elő.
Hardver: A Klaszter Gerince
A komponensek beszerzése során fő szempont a teljesítmény-maximalizálás, miközben az árak a lehető legalacsonyabbak maradnak. Számos szerver és speciális alkatrész található a rendszerben, amelyek optimális kombinációját próbáltam megtalálni.
Sokféle szerver, különféle architektúrák és generációk – a diverzitás tudatos, költséghatékonyságot növelő döntés volt. (Majd meglátjuk, mennyire jött össze...)
Az itt felsoroltak a főbb elemek (A teljesség igénye nélkül):
Dell XS23-TY3 (4 Nodusos szerver)
- CPU: 4 csomópont, mindegyiken 2× Intel Xeon X5650 (6 mag/12 szál).
- RAM: 12×16 GB Nodusonként, összesen 768 GB RAM.
- Tárhely: 20–24 db 2,5” SSD/HDD (512 GB vagy 1 TB).
- Szerep (Valószínűleg!): Elsődleges klaszter-nódusként egy szerverteremben fut, kapcsolódva a clusterhez, a műhelyhez és az otthoni állomáshoz.
3 db SUN Oracle Sparc T3-2
- CPU: Mindegyikben 2× SPARC T3 (16 mag/128 szál). SPECIÁLIS CPU!!!
- RAM: 256 GB + 128 GB + 128 GB, összesen 512 GB. (A RAM Erősen fejleszthető!!! 512GB/Gép a lehetséges maximum!)
- Érdekesség: Egyedi architektúra 128 szál / CPU-képességgel, így kiemelten alkalmas nagyfokú párhuzamosításra, AI-tréningre.
Dell PowerEdge 2950
- CPU: 1× CPU, 24GB RAM (Bővítve lesz!!! CPU és RAM megy még bele!!!)
- Szerep: Tárhely és kiegészítő CPU szolgáltatások.
Dell PowerEdge 2900
- CPU: 2× CPU, 64GB RAM (Bővülni fog.)
- Szerep: Tárhely és kiegészítő erőforrásként szolgál.
Dell PowerEdge 2900
Tartalék gép alkatrésznek. 1 CPU, + RAM-ok...
Bányász alaplapok és GPU-k
- BTC miner alaplap: 6× PCI-Ex16x GPU-t támogatással!
- ASRock AMD Ryzen 7 + GPU-k,
- ASRock AMD Ryzen 5 + GPU-k,
- Régi szerverek + GPU: Bányászat vagy AI-reszfeladatok.
- GPU mennyiség: Most indul 6–12 VGA-val, régebbi, de még ütős típusokkal. Valószínűleg 4–6 db Tesla K80 is bekerül az összetételbe, ezek főleg AI trénelésre ideálisak.
- Szükség esetén (Kizárólag a Képzés, Tanulás idejére!) amennyiben a saját erőforrások nem elegendőek, úgy Felhő GPU számítási kapacitás bekötése (Becsatornázása, Pipeing)
Grafikus Gyorsító kártyák:
- Régebbi nVidia “Tesla” GRID K1 - 16GB VRAM, 768 CUDA Mag (Jelenleg már eladó: Link ITT! )
- 6 db nVidia Tesla K80 - 24GB (GDDR5) - 4992 CUDA core! (2 db a következő hó elejétől eladó lesz a 6db-ból! Célom: 1db Jóval erősebb beszerzése, amihez gyűjtők, így megy pár dolog eladásra! Link ITT! )
- ASUS P106-100 MINING kártya 6GB VRAM (1290 CUDA maggal) (Lehet, hogy eladó lesz, de egyenlőre nem biztos! TechPower link: https://www.techpowerup.com/gpu-specs/asus-p106-100-mining.b4698 )
- Régebbi, nem kompatibilis, illetve nehezen illeszthető VGA-k bányászatból, (A 24-ből még maradt tizen-x db.) ezért eladóak! Jellemzően AMD-s vonal! RX570-RX580-asok... Link ITT: HAMAROSAN!!! Az oldal ismert hibája folytán törlődött a hirdetés! https://hardverapro.hu/apro/rx570-es_rx580-as_es_rx5500xt_elado_video-kartyak/friss.html )
HP ProLiant DL380
- Állapot: Felújítás alatt.
- Szerep: Frissítés és felújítás után csatlakozik a klaszterhez.
3 db SUN SunFire X2200
(Sajnos mindhárom alaplap kondis, ami cserére szorul. Szépen elindul, csak terhelés alatt kiszáll a játékból. Kérdéses, hogy meg-e éri javítani! [Nem, ha anyagilag nézzük a kondicsere árát!])
- CPU: Mindegyikben 2× CPU, pontos mag/szál szám még pontosítás alatt.
- RAM: Változatos (Nem számoltam össze!).
- Szerep (Lett volna): Kiegészítő kommunikációs, és adatbányász (Web Scraping) feladatok.
Egyéb szerverek
- Régi szerverek, inkább bővítéshez, vagy háttérfeladatokra (Pl.: Biztonsági mentések kezelése, Web Scraping feladatok, Terheléselosztás, Stb.).
Szoftverarchitektúra és Monitorozás
A sokféle hardver miatt a rendszer magja egy univerzális, skálázható szoftverstack:
- Debian: Mindenhol stabil, letisztult alap OS.
- Konténerizáció: Docker (Modellek, alkalmazások izolációjához és hordozhatósághoz.)
- Orchestráció: Kubernetes (a dinamikus skálázás és erőforrás-allokáció miatt)
- Monitorozás:
○ Grafana – felület és vizualizáció
○ Prometheus – metrika-gyűjtés, rendszerfigyelés, terhelés, teljesítmény, figyelmeztetések.
Ez együttesen lehetővé teszi akár több tucat AI-kísérleti modell futtatását, és akár 1-1 képzését is, miközben ha épp nincs szükség az összes erőforrásra, akkor a bányász folyamatok intelligens szétosztását, a pillanatnyi rendszerterhelés figyelembevételével.
Használati forgatókönyvek
1. AI fejlesztés & kísérletezés
- Több párhuzamos VM (vagy Docker-konténerből szolgáltatott), mindegyik különálló AI-projekttel és kísérletekkel, amelyek között szabadon csoportosíthatók a hardveres erőforrások.
- Tesztelés, finomhangolás; élesítés: A különféle szerverek, GPU-k iteratív összeépítése, bővítése, finomhangolása folyamatosan zajlik.
- Kiemelt Figyelem: SUN Sparc gépek erős párhuzamos kapacitása + a Tesla K80-as GPU-k mind gépi tanulásra, és speciális feladatokra (CPU-k) hangolva.
2. Kriptovaluta-bányászat (Amennyiben a rendszer kihasználtsága alacsony!)
- Csak ha nincs AI-tréning vagy egyéb számítási feladat (opportunista mód).
- Hatékonyságnövelés: minden watt, minden szál, minden GPU ki van használva, amikor lehetőség van rá.
Minden komponenst igyekeztem a reális piaci ár alatt beszerezni, kitartó kutatással és gyűjtögetéssel, így a teljesítményre vetített ár a lehető legjobb.
A fő kihívások
- Erőforrás-allokáció: Mérés, optimalizálás. A rendelkezésre álló úgy CPU-, mint GPU-kapacitás, memória, tárhely elosztásának finomhangolása minden időpillanatban. (+ 0 késleltetés beállítása mindenhol, ahol lehetséges!)
- Szoftverfinomhangolás: A rendszer monitorozás és riportolás folyamatos fejlesztése.
- Skálázhatóság: Új node-ok, új GPU-k könnyű integrálhatósága.
Aktuális Mérföldkövek
- GPU-rackek szerelésének befejezése (6 GPU-s Rack modding!!!)
- Több Rack telepítése és rendszerbe illesztése! (Lehetővé teszi 1-1 + GPU hozzáadását)
- Dell xs23-ty3 tárolókonfiguráció létrehozása és beüzemelése (20–24 db SSD/HDD),
- Virtuális gépek létrehozása,
- Grafana/Prometheus monitorozás élesítése.
- Kubernetes klaszter elsődleges telepítése és AI-modellek inicializálása.
Következő (Későbbi) Lépések
- Integráció: A három helyszín közötti adatforgalom, a szervertermi fő node, a műhely és az otthoni gép szinkronizációja, kommunikációja. (Az elején az összes gép egy helyszínen kerül beüzemelésre, próbaüzemre...)
Mit jelképez ez a projekt? Van értelme?
Ez több mint egy hardvergyűjtögető hóbort: igazi innovációs törekvés, amely ötvözi a kitartást, folyamatos önképzést, stratégiai alkatrészbeszerzést, a technológiai újdonságok iránti szenvedélyt, egyben tesztlabor. A saját műszaki kíváncsiság hajt előre, ugyanakkor hosszú távú befektetés is.
A cél egy olyan, többcélú platform létrehozása, amely egyszerre támogat AI fejlesztést, bányászatot, sőt, akár más nagy gépigényű számításokat – mindezt olcsón, megbízhatóan és hatékonyan.
A következő hónapokban további blogposztokban mutatom be lépésről lépésre a fontosabb bővítéseket, sikereket – a technológiai mélyrepüléstől egészen a (remélhetőleg) áttörésekig.
Ha kíváncsi vagy az aktuális állapotra, kövesd a blogot, figyeld a frissítéseket! Kérdéseket, kommenteket bátran várok, és jövök a fejleményekkel, ahogy ez a projekt folytatódik, halad előre!
Megjegyzés: A hardverlisták részletei a folyamatos bővítés, eladás-, és beszerzés miatt néhol változnak. A specifikációk frissítéseiről és a valós munkafolyamatokról igyekszem folyamatosan írni...
----------------------------------------------------------------------------------
Kabaré.
Ez a Sparc T3 miatt is valószínű...
) hogy cégeknek szeretnék célzott segítséget nyújtani, fejlődni.