Hirdetés

Új hozzászólás Aktív témák

  • ddekany

    veterán

    válasz Vesa #41 üzenetére

    Egyik félnek sem kell hinni. Egyik sem tényeket akar közölni, hanem színez, befolyásolni akar. Plusz a net/sajtó 99% fogalmatlan, így óhatatlanúl marhaságokat terjeszt.

    Tavaly már volt DeepSeek V3, egy igen jó nehéz súlyú LLM. Az még nem hosszan gondolkodós, hanem a ChatGPT 4 hez, LLaMa-hoz hasonló stílusú. Az R1 onnan lépett fel az o1 szintjén mozgó hosszan gondolkodós modellre, állítólag a megadott alacsony áron. De sokan úgy veszik, 0-ból fejlesztették volna. Ettől még meglepő, hogy ilyen hamar találtak módot az o1 szintjének megütésére, annak ellenére, hogy az o1 elrejti az gondolkodás szakaszt, tehát azt nem lehet lemásolni. A leírás alapján a training költség reális, ha a V3-ból kiindulva nézzük, és ha szinte elsőre eltrafálták a megfelelő módszert.

    A költségek terén a másik zavar, hogy sokan nem értik, hogy training (elkészítés) és inference (használat) költség az két külön dolog. Ahol megértették, ott is ilyen tipikus sajtós értelmetlen katyvasz volt az egész, hogy 30x olcsóbb, meg elmegy bárkinek a gépén, ááááh...

Új hozzászólás Aktív témák