frenda dsttöytoi

Az "Ötlettől a megvalósításig: használjuk a nyelvi modelleket új ötletekhez!" videón felbuzdulva a keddi Bringás reggeli ihlette egy kísérlet témáját. Arra voltam kíváncsi, a különböző szöveges LLM-ek milyen promptokat tudnak előállítani, majd ezekből a különböző képgenerálók milyen minőségben dolgoznak. Az egyes sorok a képgenerálók, az egyes oszlopok a nyelvi modellek különböző kimenetei.

Hirdetés

Minden nyelvi modell ugyanazt a kérést kapta: készítsen képgenerálók számára angol nyelvű promptot egy egyszerű, messziről is felismerhető logóhoz az említett eseményre, plusz néhány stílusbeli utasítás, és a szokásos (?) bombasztikus jelzők, hogy legyen egyedi, meghökkentő, szálljon le a hajad tőle stb. Nem álltam le velük alkudozni, reszelgetni; mindenkiből az első kimeneteket rögzítettem.

Ezeket adtam be aztán a képgenerálóknak. Itt is az első eredményeket mentettem le, korrekció és finomhangolások nélkül.

Nem egészen mellékesen jegyzem meg, hogy csak ennek a kis játéknak az energiaigénye annyi volt, amiből kb. 4 bögrényi vizet lehetett volna felforralni a mikróban. :O

Íme a végeredmény (sajnos a PH! fullHD-ra kicsinyít).

[kép]
Szerintem:

Az első és a harmadik sor (DALL-E, Sora) szépen vette a feladatot, csak a fogaskerekes feliratát rontotta el mindkettő. Kb. ilyeneket tudnék én is összerakni ingyenes stock képekből (igaz, sok munkával). Ez nem feltétlenül elismerés. :DDD

A második sor (Stable Diffusion) nagyon gyorsan elkészült, de teljes csőd, használhatatlan. Nem jött át a láthatóság/kontraszt igénye. Egyetlen hibátlan felirat sem sikerült. A félkerekű bringa visszatérő motívum, a harmadik kép narancssárga sündisznóját még nem sikerült megfejtenem.

A negyediknek (Gemini 2.0 Flash) sem jött át igazán a feladat lényege, de legalább vizuálisan rendben vannak. Mondjuk egy névjegykártyára. Az ívelt szövegek nem bírnak el a "reggeli" leírásával, vannak ékezet hibák, és teljes hallucinációk is - mint az utolsó kép címadó felirata.

Próbálkoztam még az új Gemini 2.5 Flash-sel is. Pixeles kép helyett egy SVG-t kaptam. Mármint egy szintaktikai hibás SVG-t. Kijavíttatás után már csak a tag-eken belüli (hibás) kommenteket kellett kiszedni. Egy torz, félig küllőzött kerék, felismerhetetlen valami, olvashatatlan szöveg.

A Midjourney fizetős, így diszkvalifikálta magát.

Neked melyik logó tetszik legjobban? Vagy külön-külön, melyik ötlet (oszlop), és melyik megvalósítások (sor)?

Tovább a fórumba.