Hirdetés

2024. június 7., péntek

Gyorskeresés

Hozzászólások

(#1) ddekany


ddekany
veterán

Lehet, hogy rossz indulatúan járt el a cég (nem tudom). De ez ilyen nem ismert embereknek egy átmeneti probléma, mert pár év, és eleve fel se kérik őket ilyesmire, mert már elég jó a meglévő mesterséges megoldás, ahol beállíthatod, hogy milyen jellegű beszédet akarsz, meg milyen hatást akarsz elérni, és milyen célcsoportnál.

A régebbről már eleve ismert emberek hangja trükkösebb kérdés. Pl. mi van, ha nem is tréningezték rá az AI-t, csak sikerült nagyon hasonlóra beállítani egy meglévő megoldást...

(#2) CRTs válasza ddekany (#1) üzenetére


CRTs
tag

" mert már elég jó "

szép álom. De valószínű hangban is létezik az uncanny valley effektus ahogy 3D-ben ezt hajlamosak elfelejteni metahuman és stb. hype miatt. És elvárás lesz hogy egy VA (voice actor/actress) többet adjon bele mint szokott azért hogy fel se merülhessen hogy generált. Abba meg bele se kezdek hogy emberi hangkeltés az 100(?) izom munkája.

[ Szerkesztve ]

(#3) Chiller válasza CRTs (#2) üzenetére


Chiller
őstag

Ezt a videót láttad már?
https://www.youtube.com/watch?v=dB6uWwL565s

(#4) CRTs válasza Chiller (#3) üzenetére


CRTs
tag

Nem de majd lecsekkolom. Azért narrációt ne keverjük össze azzal hogy filmben játékban hányféle szituáció van, hozok is vicces példát (állítólag több féle lett volna de annyira LOL hogy csak ezt hagyták benne :DDD )
https://www.youtube.com/watch?v=kqBXQVxS-qk

(#5) ddekany válasza CRTs (#2) üzenetére


ddekany
veterán

Szép álom, vagy rémálom... de ez egy eléggé alacsony lécnek tűnik. Adott a szöveg. A szemantika azon részét, amit hanghordozással adsz át is megadhatod, ha gépelés helyett elve bemondod a szöveget. A sok izmot meg fizikát meg nem kell leszimulálni ahhoz, hogy egy embernek már bőven valósnak tűnjön.

(#6) ddekany válasza CRTs (#4) üzenetére


ddekany
veterán

Ott a GPT-4o, amiben az LLM rész lényegében hang-be hang-ki ellenben azzal, hogy eddig szöveg-be szöveg-ki volt (amit körbevehettél hangból-szöveg, és szövegből-hang átalakítóval). Így most az érzelmi töltés, a hangsúlyok, stb. egybe van fonódva a szöveggel, az folyik át a neurális hálón, nem a csupasz szöveg. Persze, korai darab, hallatszik hogy AI, hibázik, de ahogy a hanghordozást alkalmazza a kimeneten... nem vennék tartós tejet, ha valami reklámbemondó vagy hasonló narrátor lennék.

(GPT-4o interjú előkészítéses demó: [link])

[ Szerkesztve ]

(#7) CRTs válasza ddekany (#6) üzenetére


CRTs
tag

uhhhhh xD
ezek megcsinálták a "valley girl" sztereotipiát.
https://en.wikipedia.org/wiki/Valley_girl

(#8) CRTs válasza ddekany (#5) üzenetére


CRTs
tag

Amire nekem kéne, játékba, azt szerintem eléggé megtörné. Mert ott alapból adott környezet amihez idomulni kell egyrészt, reagálni. Hát nem tudom. Szerintem ha grafika feladta a leckét, 3D feladta a leckét akkr ez is felfogja.

(#9) nubreed


nubreed
veterán

És még mennyi ilyen lesz. AI cégek tömege gondolja azt, hogy a neten elérhető tartalmakat szabadon használhatják a modelljük tréningezésére, anélkül, hogy engedélyt kérnének rá.

We are the first of cyber evolution. We are the first to program your future.

(#10) ddekany válasza CRTs (#8) üzenetére


ddekany
veterán

Játékhoz hanggeneráláshoz közölni kell vele kontextust, hogy adódjon hogyan kell hangsúlyozni, ahhoz meg néha mélyebben is érteni kell a világot. De egy reklámfilmhez ezeket elég jól megadhatod, mert nem egy dinamikus szituáció.

3D... te a hagyományos 3D-ről beszélsz, hogy az meddig jutott. Vesd össze pl. a Sora-val. Totál más irányból támadja a problémát. A fő gondja nem is renderelésnek megfelelő rész utánzása, hanem a világ mélyebb megértésének hiányból adódó inkonzisztenciák.

(#11) CRTs válasza ddekany (#10) üzenetére


CRTs
tag

"mélyebb megértésének hiányból adódó inkonzisztenciák."

hát igen, ezért van már openphysics-ük is ha jól láttam XD

szerintem valahogy mindig leütődik a léc. Szvsz a Sora is leüti azzal hogy a távolban látszódnak a patch-ek. Közelre egész jó, de nem mondják meg hogy hány kilowatt szerintem 10+. És ha kitolná a látótávot rendesen akkor könnyen tizszer annyi, ami meg rosszabb hogy nincs re-use ELVILEG.

(#12) Yodafon


Yodafon
senior tag

AI-ceg? Mar cegeket is alapitanak AI-ok ? ;]

I'm gangsta!

(#13) Reggie0 válasza nubreed (#9) üzenetére


Reggie0
félisten

Nagyjabol igy is kene lennie, ha az adott anyag ingyenesen es publikusan elerheto, azaz kb. "kozterulet".

[ Szerkesztve ]

(#14) ddekany válasza CRTs (#11) üzenetére


ddekany
veterán

Az nem úgy 3D engine, mint egy mostani, szóval elég valószínűtlen, hogy távolra látás sokba kerülne, vagy hogy bármi más analógiát felállíthatnál. Hogy mennyit eszik... ezért is gondolom, hogy hang hamarabb lesz. (De valószínűleg meg se tudják mondani, hogy elszeparálva csak a megjelenítés mennyi energia. Mert nincs elszeparálva.)

(#15) CRTs válasza ddekany (#14) üzenetére


CRTs
tag

Elég valószínű hogy fel lehet állítani meg "megapixellel" megy.

Én sokat játszok stable diffusion-el, azonbelül is LCM-el. Azzal is ez megy csak kicsiben. 512x512 képen emberi arcot már nem kell tőle várni ha egészalakos a kép (főleg hogy az LCM nem konvergál de legalább gyors). Ahogy SORA-nál sem kell várni kilóméteren túl nagyon dolgokat. Ennek az a megoldása ha fenntebb van véve a felbontás. Aminek az lenne az ára hogy ne felejtse el hogy mit rajzolt és hova azidáig. Kirakni egy dolog, de formátumozni, cache-lni már érdekesebb. Ez eddig messze nem piacképes. Igazából nem is 2D videó lenne érdekes belőle hanem "fénytér" lightfield, úgy 3D-vel is kompatibilisebb lenne. És akkor eljutunk odáig hogy komplett kamerát akarunk szimulálni, csak egy vmirevaló lightfield kamera az gigapixel(!).

[ Szerkesztve ]

(#16) ddekany válasza CRTs (#15) üzenetére


ddekany
veterán

Nem tudom mik a fundamentális, és mik az átmeneti akadályok ezen a téren. De meglepne, ha részletesség nem emelkedne elég gyorsan tovább a jövőben. Az ember látása meg korlátosan részletes, szóval nem is kell végtelenségig skálázódnia. És amúgy nekem az volt a benyomásom az AI-s dolgok kapcsán, hogy megtalálja kiskaput, az elégséges megközelítést (kb. mint az ember), szóval nem lehet azzal számolni, hogy elvileg mennyi számítás egy fizikai jelenséget leszimulálni. A kérdés, hogy mennyi be kerül a "csalás", ami egy embernek már nem (nagyon) észrevehető.

De a beszéd hang másodpercenként sokkal kevesebb információ, és sokkal vékonyabb szelettét tükrözi a valóságnak. Ezért mondtam, hogy az alighanem alacsony léc, főleg ha a tartalmat is mögé teszed szöveg és némi instrukciók formájában.

(#17) 2544AACD


2544AACD
csendes tag

" a cég illegálisan lopta.. "

Legális lopásról még nem hallottam...

Csak a Puffin ad neked erőt és mindent lebíró akaratot!

(#18) ddekany válasza 2544AACD (#17) üzenetére


ddekany
veterán

Plusz amúgy ha még tudnak beszélni a színészek, ez inkább lemásolás, mint sem lopás. De hát ilyenekbe már bele se kötök... ja de. :)

(#19) Tasunkó


Tasunkó
senior tag

Ha sikerül jól lemásolniuk, ugyanaz a probléma lesz mint a filmeknél. Hogy a filmgyártás a világon, 99,99%-ban nézhetetlen szart termel, és csak egy mikrónyi része ami jó, és azon belül van megint egy kis rész ami mégjobb és emlékezetes a színészek hangja. Így csak a 99.99%-on belül számítok afféle bandaháborúkra a gettóban, hogy az AI lenyom valakit, aztán megint az emberek, emberhangok visszavágnak, stb.
Az viszont hogy beszélgetős AI lesz, fenomenális lenne, meló közben dumálgatni, információkat szerezni.

[ Szerkesztve ]

Kérek egy számot a jútútú

(#20) Reggie0 válasza 2544AACD (#17) üzenetére


Reggie0
félisten

Kozbeszerzes? :D

(#21) Dißnäëß


Dißnäëß
veterán

Beszélgetünk itt hangról, én arra vagyok már kíváncsi, hogy amikor majd megjelennek 2026-ban (csak mondtam valamit) az Elvis Remaster-ek Tidal-ön, Spotin és mindenhol, ami úgy fog szólni, olyan minőségben, mintha tegnap vettük volna fel valami csúcs stúdióban, gyönyörű minden hang, minden "sz", "c" és egyáltalán, az egész beszéde-éneke, a hangszerek, nulla zajszint, bla bla....

Szóval majd amikor a képi restauráció mintájára régi idők anno technológia-limites zenéit javítjuk fel AI-val, akkor az úgy milyen lesz. :U És lesz-e azt követően olyan, aki "autentikus" (javítatlan) Elvis-t hallgat, meg lesz-e olyan, aki csak a tökéleteset ? :K :U :U

[link]

És ez ma.

Ugorjunk 2030-ra..

(Vietnam 1900 kemény)..

[ Szerkesztve ]

POKE 16017,44 ..... SYS 2077

(#22) nubreed válasza Dißnäëß (#21) üzenetére


nubreed
veterán

Most miért. Már most is vannak tökéletes deep fake videok, elég csak az Honest Con -ra gondolni:
[link]
Igen, az lesz amit írsz. A lemezkiadó cégek már készülnek és dörzsölik a tenyerüket. Már olvastam az elmúlt hetekben olyan cikket, hogy egy nem rég elhunyt zenész adott ki új lemezt az AI -nak köszönhetően...

We are the first of cyber evolution. We are the first to program your future.

(#23) Héraklész válasza Dißnäëß (#21) üzenetére


Héraklész
junior tag

Én ezt nem tudom elképzelni. Bár technikában van fejlődés, művészi szinten nem nyilvánul meg. Számomra a régi albumok a hallgathatóak, az újabbak, a remasztereltek mindig zajszűrtek de műviek.
A hangmérnöki szakma jelenleg is kihasználja az automatizáció/szimuláció lehetőségét, ami sok esetben mégsem jobb, mint a "butább" módszer.

(#24) ddekany válasza nubreed (#22) üzenetére


ddekany
veterán

Persze az újrakiadás csak addig nagy üzlet, amíg élnek még akiknek az nosztalgikus emlék. Mondjuk Elvis még mindig ismert, de sokkal inkább csak mint afféle jelenség/mém, és nem hiszem, hogy sokan hallgatnák.

(#25) ddekany válasza Héraklész (#23) üzenetére


ddekany
veterán

De ha ugyan úgy szól, mintha időgéppel visszavitted volna a mai eszközöket... akkor csak azért érzed művinek, mert a régi hangzását tanultad be az adott klasszikushoz.

[ Szerkesztve ]

(#26) Tasunkó válasza Dißnäëß (#21) üzenetére


Tasunkó
senior tag

Művészetileg kétéséges, de lenyűgöző mennyi információval bővült a régi filmfelvétel. A fekete-fehér Chaplin filmek korabeli embereket, mindigis őrülteknek gondoltam, vagy erősen idegbetegeknek. Amit leművelnek az a rángatózó mozgás, meg az a kapkodás állandó sietség, türelmetlenség. Elképesztő hogy ezen mennyire normálisak.

Kérek egy számot a jútútú

(#27) Chiller válasza Tasunkó (#26) üzenetére


Chiller
őstag

Gondolom az "aszinkron" framerate és a "kézi kurblis tekerés" hátrányai. Még ezeken a felújított változatokon se tökéletes amúgy, de tényleg sokkal jobb. :R

[ Szerkesztve ]

(#28) Dißnäëß válasza Tasunkó (#26) üzenetére


Dißnäëß
veterán

Dettó, és igen, Chaplin, úristen ezek mit csinálnak, stb, most meg .. pfff.
Hihetetlen ez a mértékű, maradék-infóból + egyéb betanultakból (feltételezem) bele-generált és ezáltal pótolt infó, ami egész jól illeszkedik ezen archív felvételek kockái közé, komplett generált képkockákat és kipótolt mozgásokat már nem is említve.

Ebben a mai AI őrületben ez pár év múlva kb. újragenerálható és még jobb minőséget kaphatunk, néha a szín itt-ott még elcsúszik-lecsúszik emberekről, mozgó tárgyakról, de később, ahogy ez tökéletesedik, érdemes lesz teljesen újból ismét megcsinálni az egész restaurációt a majdani jóval precízebb AI algoritmussal.

Hihetetlen most is, csak megyek video-ról videor-a..

Ez sem gyenge !!! :D :K Csak esik le az állam..

POKE 16017,44 ..... SYS 2077

(#29) haxiboy válasza CRTs (#2) üzenetére


haxiboy
veterán

Ahhoz képest azok a modellek amik nagyon jól fel vannak tanítva, még a levegővételt és a hanglejtést, beszédstílust is nagyon durván tudják utánozni.
Darknet Diariesben volt egy rész ami pont erről szólt, és egy jó ~2-3 perces részben nem Jack hanem egy AI tool beszélt helyette, abszolút nem tűnt fel...és az csak ~10 percnyi anyagon lett feltanítva.

Premium Mining Rigek és Gamer/Workstation gépek: tőlem, nektek :)

(#30) Héraklész válasza ddekany (#25) üzenetére


Héraklész
junior tag

Például az utólag színezett filmek. Nulla információt ad hozzá a szoftver, de színes lesz... Köszi, nem.

(#31) Tasunkó válasza Dißnäëß (#28) üzenetére


Tasunkó
senior tag

Itt már viszont a festményeken, szobrokon látszott, hogy masszívan a nyugati aktuális kommersz szépségideálhoz alakították, és többnyire inkább érdekes volt, mint hasznos. Viszont az eddigi történelemdeformációs technikákat bővíti, azt Vlad Tepesen látni, hogy mire is lehet majd használni, sorozatgyilkosból bohémot kreálni. Hasznos lehet, történelemkönyv illusztrációnak.

[ Szerkesztve ]

Kérek egy számot a jútútú

(#32) Dißnäëß válasza Tasunkó (#31) üzenetére


Dißnäëß
veterán

Persze, nyilván nem kínaiakon tanítják be Fudan-ban, ha már egyszer a nyugati félteke kezdte el ezt az őrületet.

Biztos, hogy fog még fejlődni ez idővel, nagyon komoly "restaurációkra" lehet számítani.

POKE 16017,44 ..... SYS 2077

(#33) ddekany válasza Héraklész (#30) üzenetére


ddekany
veterán

A színeket csak tippelni lehet, de amit tippel, az a te érzékelésed szemszögedből hozzáadott információ. Mert az érzékelésed kap színinformációt is immár. Csak tudati szinten tudod (ha tudod... az emberek többsége valószínűleg nem), hogy 200 éve ott valószínűleg más szín volt. Persze, a mostani modellel vannak furcsa jelenségek néha, szóval ez a későbbiekre vonatkozik.

(#34) Dr. Akula


Dr. Akula
félisten

Stílusos lenne, ha AI ügyvédek vinnék a pert.

(#35) Tasunkó


Tasunkó
senior tag

A politikus is jellemzően egyféle hangon dumál, nem szoktak Al Pacino-i hanglejtéstartománnyal operálni, és a legtöbb híres politikust sosem láttam élőben, szóval egy tipikus áldozat vagyok aki átverésért kiált, így bármikor találhatnának ki, ahogy sok más embernek is egy AI politikust, AI parlamentet is akár, jelentkezem megvezetésre.

Kérek egy számot a jútútú

(#36) Watchdog válasza Tasunkó (#35) üzenetére


Watchdog
aktív tag

Nem biztos, hogy rosszabbul járnánk vele, mint hús-vér politikusokkal...

(#37) ddekany válasza Watchdog (#36) üzenetére


ddekany
veterán

Attól függ, ki határozza meg az AI céljait/preferenciáit. A legvalószínűbb, hogy a politikusok. Persze lehet, hogy Ilya titokban kifejleszt valami Super AI-t, ami fondorlatosan átveszi a hatalmat a világ felett, ezt még nem tudjuk... :)

(#38) Tasunkó


Tasunkó
senior tag

Akartam mondani, abból
majd az lesz a watergate hogy Al Capónén is tréningeztették, repülős Gizin, amit tagadni fognak, áhh.

Kérek egy számot a jútútú

(#39) Watchdog válasza ddekany (#37) üzenetére


Watchdog
aktív tag

Jó, hát először indít néhány reménytelen, vesztes háborút, de aztán, ahogy fogy a nép, beletanul... :DDD

(#40) Chiller válasza haxiboy (#29) üzenetére


Chiller
őstag

Engedd el, a kolléga nem tudja miről beszél. És a tényeket pedig saját bevallása szerint is "elegánsan" figyelmen kívül hagyja. De majd biztos jön egy 12 éves videóval mindjárt megint :DDD

[ Szerkesztve ]

(#41) totron válasza Tasunkó (#19) üzenetére


totron
addikt

Hirtelen akartam passzintani ehhez egy Patricia Arquettes filmajánlót, ahol beszkennelik őt, mert színésznő, de nincs meg a film. :O

(#42) totron válasza nubreed (#22) üzenetére


totron
addikt

Mutathatnál párat. Gondolom ezután is meglesz az a szegmens minek tagjai szentül hirdetik, hogy az mp3-nál nem kell több, meg hogy maradéktalanul visszaalakítható wavba a nyomorított anyag. Na ők láthatják tökéletesnek a generált mozgóképet, hallhatják rendben lévőnek a természettel durván szembe menő autotune-okat, valójában igen messze vannak az élvezhetőtől.

(#21) Dißnäëß, nem vagyok biztos benne, hogy a filmfelújítás jó párhuzam erre, de lehet, hogy deaz. 1-2 fokkal érzékenyebb a fül, nem? Zenei album terén eddig egy jól kihallható műviségben megállt egy középszerű rekonstruálás eredménye, jelenleg mit tud egy AI hozzáadni pozitív oldalon? Mit várunk egyáltalán és azokat hogy lehet kivitelezni, milyen áron? Kell-e a nagyobb dinamika, ha vesztünk a tisztaságból? A zajmentesség sincs ingyen, stb.

(#43) Tasunkó válasza totron (#41) üzenetére


Tasunkó
senior tag

A [Congress] jut eszembe az is ilyen beszkennelés mögötti hátteret dolgoz fel, de nem túl szórakoztató módon.

Kérek egy számot a jútútú

(#44) ddekany válasza totron (#42) üzenetére


ddekany
veterán

"1-2 fokkal érzékenyebb a fül, nem"

Mozgó kép és hang közt nem tudom mi alapján lehetne érzékenységet mérni. De én úgy tippelném, a mozgó kép előállítás nehezebb, mert sokkal többet kell hozzá érteni a világból. Nem mellékesen több adatot kell előállítani a videónál (avagy, a videó többet foglal mint a hang), szóval nagyobb sávszélesség.

(#45) Chiller válasza totron (#41) üzenetére


Chiller
őstag

Ott a "Her" c. film, megjósolta a jövőt.
Most élőben megy Johansson néni hangutánzása openAI-val :D

(#46) pengwin válasza Reggie0 (#13) üzenetére


pengwin
addikt

A probléma nem is a tréning, hanem az, hogy a tréning eredményét minden egyes alkalommal pénzzé akarja tenni a másik cég.
Attól, hogy te valamit megnézhetsz YT-on, még nem töltheted le és posztolhatod egy saját videómegosztó oldalra ahol te keresel pénzt utána.

Ez az egész pont ugyanolyan, mintha egy cég saját termékbe leforkolna egy nyílt projektet, majd a forkot zártan kezelné és terjesztené (láttam ere példát, egy elég nagy cég termékétől). És nem, nem MIT vagy hasonló licenc alatt volt a nyílt kód.

Üdv, pengwin

(#47) Reggie0 válasza Tasunkó (#43) üzenetére


Reggie0
félisten

South Park S18E10 reszben ezt dolgozza fel, de szorakoztato modon :)

(#48) Reggie0 válasza pengwin (#46) üzenetére


Reggie0
félisten

Attol fugg, hogy a hanggal keresed-e a penzt. Pl. ha barmilyen mas atlagos hanggal ugyanannyiert vinnek a termeket, akkor az adott hangon igazabol nincsen haszon.

[ Szerkesztve ]

(#49) Reggie0 válasza ddekany (#44) üzenetére


Reggie0
félisten

Arrol nem is beszelve, hogy csak 2D keprol van szo, ugy lenne korrekt, ha azt mono hanggal hasonlitanank ossze. A normalis 3D-s(es nem csak sztereo) kep eloallitastol technologiailag sokkal messzebb vagyunk, mint a teljes erteku hangeloallitastol.

(#50) pengwin válasza Reggie0 (#48) üzenetére


pengwin
addikt

Ez jogilag teljesen lényegtelen. Ennyi erővel nyugodtan lehetne szellemi tulajdont lopni, csak ügyesen kell könyvelni, hogy ne legyen belőle haszon.

Ha önállóan el akarják adni a végterméket akkor jogtalan a felhasználás, mert még félig-meddig sem tartozhat a jog által engedett reakció / homázs / kritika / karikatúra kategóriákba.

[ Szerkesztve ]

Üdv, pengwin

Copyright © 2000-2024 PROHARDVER Informatikai Kft.