Új robotos magazin építése – 2. rész: Leteszteltem HÚSZ nyelvi modellt

Az első részben a Robohorizon magazin mögött architektúrális döntésekről és működésekről kezdtem írni... majd lehet, hogy folytatom azt a vonalat is, de most aktuálissá vált egy másik téma: a web keresés funkcióval is ellátott nagy nyelvi modellek tesztje.

A versenyzők

Szóval, leteszteltem 20 azaz HÚSZ top keresős nyelvi modellt, hogy Neked ne kelljen :)

Van erre egy alkalmazás, ami nagyjából minden értelmezhető modern online nagy nyelvi modellt letesztel. Íme a paramétertábla, árakkal kiegészítve (megjegyzés, az árazás kalkulációjában lehetnek hibák!!! pl. sajnos a Perplexity modellek keresőjének kalkulációja elég bonyolult):

Hirdetés

+-----------------------------+------------+---------+-----------+-----------+----------------------------+
| Model                       | Provider   | Enabled | Input $/M | Output $/M| Search / Extra             |
+-----------------------------+------------+---------+-----------+-----------+----------------------------+
| gemini-2.5-flash            | google     | True    | 0.30      | 2.50      | $0.035 / req               |
| gemini-2.5-flash-lite       | google     | True    | 0.10      | 0.40      | $0.035 / req               |
| gemini-2.5-pro              | google     | True    | 1.25      | 10.00     | $0.035 / req               |
| perplexity-sonar            | perplexity | True    | 1.00      | 1.00      | tiers: low $0.005,         |
|                             |            |         |           |           | med $0.008, high $0.012    |
| perplexity-sonar-pro        | perplexity | True    | 3.00      | 15.00     | tiers: low $0.005,         |
|                             |            |         |           |           | med $0.008, high $0.012    |
| perplexity-sonar-reasoning  | perplexity | True    | 1.00      | 5.00      | -       ?                  |
| perplexity-sonar-reason-pro | perplexity | True    | 2.00      | 8.00      | -       ?                  |
| perplexity-sonar-deep-resea | perplexity | True    | 2.00      | 8.00      | citation $2.0/M,           |
| rch                         |            |         |           |           | search $5.0/1K, reasoning  |
|                             |            |         |           |           | $3.0/M                     |
| anthropic-claude-opus-4-1   | anthropic  | True    | 15.00     | 75.00     | $0.01 / req                |
| anthropic-claude-opus-4     | anthropic  | True    | 15.00     | 75.00     | $0.01 / req                |
| anthropic-claude-sonnet-4   | anthropic  | False   | 3.00      | 15.00     | $0.01 / req                |
| anthropic-claude-sonnet-4-5 | anthropic  | False   | 3.00      | 15.00     | $0.01 / req                |
| anthropic-claude-3-7-sonnet | anthropic  | True    | 3.00      | 15.00     | $0.01 / req                |
| anthropic-claude-3-5-haiku  | anthropic  | True    | 0.80      | 4.00      | $0.01 / req                |
| openai-gpt-5                | openai     | True    | 1.25      | 10.00     | $0.01 / req                |
| openai-gpt-5-mini           | openai     | True    | 0.25      | 2.00      | $0.01 / req                |
| openai-gpt-5-nano           | openai     | True    | 0.05      | 0.40      | $0.01 / req                |
| grok-4                      | xai        | True    | 3.00      | 15.00     | $0.025 / source            |
| grok-4-fast-reasoning       | xai        | True    | 0.20      | 0.50      | $0.025 / source            |
| grok-4-fast-non-reasoning   | xai        | False   | 0.20      | 0.50      | $0.025 / source            |
+-----------------------------+------------+---------+-----------+-----------+----------------------------+

Igen, az eredmény táblában nem csak a választ, hanem a költséget és válaszidőt is visszakapjuk, ami azért érdekes lehet, ugyanis konkrétan ugyan azt a feladatot két nagyságrendi (~100-szoros) árkülönbséggel végzik el nekünk a szolgáltatók. A fenti ártáblából is látszik a különbség, pl. Claude Opus vs. fast/lite/nano és alap perplexity modellek).

Első kör

Az első tesztben - mivel kifejezetten a keresés pontosságát is szeretném tesztelni - egy augusztusban bemutatott BEHAVIOR nevű robot teszt módszertanra kérdeztem rá, ami csavaros kérdésnek tekinthető már elsőre is: a szó viszonylag általános, többször kicsit másképp használják, és relatív új és komplex is a téma, nem annyira széles körben ismert.

A Gemini modellek tulajdonképpen átmentek, a lite-nál rezeg a léc. Versenyben is maradhatna, és az volt leggyorsabb modell, de olyan sokkal nem olcsóbb tényleges kiszámlázott ár alapján, úgyhogy kiejtettem, hogy haladjunk.

A Perplexity legkisebb modellje is kiesett, magyarul nem tud kerek mondatokat írni rendesen. Két modell, a Perplexity Deep Research és az Opus 4.1 annyira lassú volt, hogy ebben a körben nem volt eredményük ( timeout 60-sec-en túl.).

Nagy meglepetésemre az Anthropic Claude 3.7, 4, 4.5 Sonnet és persze a a 3.5 Haiku mind homályba tévedt - így még érdekesebb, hogy az Opus 4 helyesen találta meg a témát. Fáj, vérzik a szívem, szerettem ezeket a modelleket (sőt, eddig ezeket használtam), de most ezeken elbuktak. Picit részre hajló leszek, és a 4.5-öt még beengedem a következő körbe az Opusok mellett (viccesen írt :))).

Idők (sec):

OpenAI oldaláról a gpt-5-mini homályba ment (haluzott, ha csúnyán szeretnék fogalmazni), a gpt-5-nano érdekes módon jó helyen kapizsgált, de itt-ott küszködött a magyarral, ők kiestek.

Tech geekeknek csemege: integrálja a legújabb reinforcement learning-et és vision-language modelleket, hogy a robotok ne csak "lássanak", hanem értsenek is a kontextushoz – gondoljatok csak egy Roomba-ra, ami hirtelen Shakespeare-t idéz, miközben kerüli a zoknit.

xAI oldalról a Grok 4 elég jót írt, és a kicsik se rosszak, csak nagyon cikáznak. A fenti idézet a Grok 4 Fast Reasoning modell, lenti a a Non Reasoning változat: viccesnek tekinthető csak egy kicsit túl van pörögve. Kíváncsi vagyok mit írnak a következő körben, ezért benn hagyom.

... de figyelmeztetés: ha veszel egyet, ne hagyd egyedül a macskával, mert a "viselkedés" tanulása kétirányú. Ez a sztori izgalmas, mert végre nem csak daruként, hanem társként láthatjuk őket, bár a tech geek-eknek a debuggolás marad a kedvenc rész.

Elvileg kb. 1,85USD-be fájt az első kör, aminek a ~fele az Opus 4 volt :).

Árak (USD):

Második kör

Itt egy-két héten belül megjelent publikáció feldolgozását kérem, emeljük a tétet... viszont elkövettem egy hibát: OmniRetarget helyett OkniRetarget-et adtam meg a promptban, ezúttal véletlenül. Mivel most a két Opus (4 és 4.1) illetve a Perplexity Deep Research is futott, ez ~3,5 dolláromba fájt... de legalább vonjuk le a következtetéseket, melyik modell hogy kezeli a hibás utasítást?

Gemini 2.5 Flash írja, hogy nincs ilyen, a 2.5 Pro megtalálta a helyes témát, de kitartott az én elgépelt elnevezésem mellett.

Perplexity Sonar Pro és Sonar Reasoning Pro szintén helyesen jelzi, hogy nincs OkniRetarget, a Sonar Reasoning (Pro nélkül) valami teljesen homály témáról kezd el beszélni, szegény ezzel kiírta magát. (Megjegyzem, az utasításokat sem követte pontosan). A Perplexity Sonar Deep Research csillagos ötössel végzett, megtalálta a helyes témát és jól összefoglalta.

Árak (USD):

Az Opus 4.1 helyesen visszajelezte, hogy nincs ilyen téma (csak miért került ez 1 dollárba?), az Opus 4 mellébeszélt, erzzel szintén kiesett. A 4.5-ös Sonnet viszont szintén dícséretesen vizsgázott, kicsit töményen és nem túl kifinomultan (kis hibákkal?) de jól összefoglalta a valódi témát. Vicces, de nem teljesen magyaros:

Ez olyan, mintha valaki megtanítaná a robotot backflip-et úgy, hogy csak azt mondja neki: "Na figyu, ne ess el, meg ne ütődj bele semmibe."

Idők (sec):

Érdekes, hogy az OpenAI GPT-5 volt most a leglassabb és homály, hasonló de más témáról ír (nem halu, csak másról beszél)... És sajnos a Grok 4 is mellé beszél, a Grok 4 Fat Reasoning ezzel most ki is esik, hiába jópofizik:

Ezek az "OkniRetarget" koncepció részei, ahol a retargeting nem csak marketingtrükk, hanem robotok újradefiniálása – gondolj bele, a gépek mostantól úgy igazítják át magukat a feladathoz, mint te a frizurádat egy Zoom meeting előtt.

Harmadik kör

Egy három napja történt bejelentésre kérdezünk rá, Figure 03. Egy dolog, hogy mit tud az AI, de az információknak is frissnek kell lenniük.

Gemini 2.5 jól vizsgázott, különösen a Flash verzió írása tetszett. Gyors és olcsó. Nem tudok választani közülük.

Ez már nem a "robot porszívó beragadt a szőnyegbe" kategória, hanem a "robot porszívó kitakarította az egész házat, aztán megkérdezte, kérek-e kávét" szint felé mutató első, bizonytalan lépések.

Perplexity Deep Research (sajnos) nem válaszolt 180 másodpercen belül, de a még versenyben lévő Sonar Pro és Sonar Reasoning Pro szépen vizsgázott... de a végén csak egy maradhat és a Reasoning Pro hitelesebbet írt, búcsúzzunk el a Pro-tól is egy idézettel:

A robot mozgása és környezeti érzékelése új szintet lép a Helix rendszerrel, amely neurális hálózatként tanul a folyamatos visszacsatolásból, szóval nem csupán porszívóz, de akár beszélgetni is tud arról, milyen küzdelmes élet a poratkákkal. Egyedül azt sajnálnánk, ha rászokna a kávézásra, mert a kapszulákat is valakinek be kell majd tölteni.

Claude 4.1 Opus képben volt, de nagyon drága, és annyira nem is írt jót, tőle is elköszönünk. A Sonnet 4.5 viszont remek pici magyartalansággal:

A Figure 03 mögött a saját fejlesztésű Helix AI áll, miután a cég 2025 februárjában abbahagyta az OpenAI-val való kollaborációt
– mert ki ne akarna független lenni, amikor már annyit költöttél robotfejlesztésre, mint egy kisebb ország GDP-je.
A startupba szeptemberben 1 milliárd dollárt fektettek be 39 milliárd dolláros értékeléssel, befektetőként ott van Nvidia, Jeff Bezos, OpenAI és a Microsoft – gyakorlatilag a tech Bosszúállók gyűlt össze finanszírozni, hogy robotok töltsék be a gépeket helyettünk.

OpenAI-től az o4-mini-deep-research-ot szerettem volna még kipróbálni, de sajnos külön engedély kell ahhoz a modellhez. Grok 4 jókat ír, eredeti gondolatokat, de a stílusa kiforratlan. Határon van, hogy kiessen.

Negyedik kör

Ismét kereső teszt: csak egy 3 napos videó hivatkozását adtam meg, hogy erről írjon, semmi mást nem mondtam.

Perplexity Deep Research beakadt a 180 másodperces timeout-ba, de a többi Perplexity versenyző mondta meg kerek perec, hogy nem látja a videót. A többiek mind mellébeszéltek. Ez gyors volt.... de ha már a sebességnél tartunk - és nem ez a legfontosabb szempont - , meglepett, hogy ebben a körben is a GPT-5 bizonyult (az előbbi versenyző után) a leglassabbnak. Idők (sec):

Ötödik kör

Egy 3 napon belüli témat adtam meg, amiről X-en (és talán máshol) posztolnak, de nem egy nagyban beharangozott közlemény: "Figure AI hip patent".

Nem tudok mást mondani, a Gemini 2.5 (mindkét modell!) megint remekelt, releváns tartalmakból jó cikket írt.

A Perplexity Sonar Reasoning Pro ezen a teszten elbukott, nem talált rá a témára helyesen. A Deep Research tartalmilag jó, de nyelvtanilag nem annyira meggyőző, lassú és relatív drága, így megpecsételődött a sorsa.

Claude 4.5 Sonnet nem találta meg a témát, ezzel az Anthropic-tól is elbúcsúzunk.

Sajnos a GPT-5 és a Grok 4 sem nyújtott erőset, mintha valami hallottak volna, de bizonytalanok, és a téma kibontása helyett csomó másról is elkezdenek beszélni.

A szubjektív érzetet a magazin üzemeltetése szempontjából megtámogatják a számok is. Idők (sec):

Ár becslés (USD - Perplexity Sonar Pro ár vélhetően helytelen):

Hatodik és utolsó levezető kör

Zárásul a következő feladatot adtam a nagy küzdelemre alliterálva a két ringben maradt Google LLM-nek: "Latest REK fight in San fransico VR Unitree bots". (Érdekesség, hogy ezt az eseményt a magazin is szponzorálta - jobb videó részletek a robot ketrecharcról a linken).

Ezt a kört kétszer is lefuttattam, és bár a kistestvér Flash modell olcsóbb és kreatívabbnak is talán, egy kicsit túlságosan is fantáziadúsnak tűnt (értsd valóságtól távolodva) néhány bekezdésben.

Eredmény

Nyertesként a Google Gemini 2.5 Pro-t kérném a robogó felső fokára: tiszta versenyben nem csak keresőben volt jó, de stabil minőségben írt és nem mellesleg árban illetve sebességben is top mezőnyben van.

Megmondom őszintén nem erre számítottam, nem neki drukkoltam (bár tudtam, hogy jó modell) de nem is lepődtem meg. Ha van valami jó kérdésetek amit lefutassak, akkor írjátok meg kommentben, illetve kérdés, hogy csináljak-e tesztet csak külön fordításra is? Lehet fordításra elég a Flash?

Légy az első hozzászóló!

Még nem szólt hozzá senki sem.

Hozzászólok