Dok neuronaučnici pokušavaju shvatiti način na koji ljudski mozak ono što naše oči vide pretvara u mentalne slike, umjetna inteligencija postaje sve bolja u oponašanju tog poduhvata. Nova studija postavljena na bioRxiv pokazuje da umjetna inteligencija može čitati snimke mozga i ponovno stvoriti uglavnom realistične verzije slika koje je osoba vidjela.
Razumijevanje uma
Iako zvuči kao nešto iz SF romana, istraživači su uspješno istrenirali sistem vještačke inteligencije da rekreira slike koje su ljudi gledali na temelju skeniranja njihovih mozgova. VI je generirala slike objekata uključujući medvjedića, toranj sa satom i avion nakon što su učesnici pogledali slične slike.
Iako ova tehnologija skeniranja mozga u sliku još nije spremna za javnu upotrebu, istraživači kažu da bi se jednog dana mogla pokazati korisnom za razumijevanje onoga što se događa u ljudskim umovima. Nakon što naučnici poboljšaju koncept, ljekari bi ga mogli upotrijebiti za komunikaciju s paraliziranim ljudima. Neuronaučnicima bi mogao pomoći u tumačenju snova ili u razumijevanju kako druge vrste percipiraju svijet oko sebe.
Mnogi su dosad vještačku inteligenciju koristili za čitanje snimaka mozga i ponovno stvaranje slika koje je subjekt nedavno vidio, poput ljudskih lica i fotografija krajolika. Ali, sada su istraživači Univrziteta u Osaki koristili Stable Diffusion, generator teksta u sliku koji se pojavio u augustu prošle godine. Njihov model je mnogo jednostavniji, zahtijeva hiljade umjesto miliona parametara ili vrijednosti naučenih tokom obuke.
Dakle, kako to sve funkcioniše? Obično korisnik unese riječ ili frazu koju Stable Diffusion, ili druge slične tehnologije kao što su DALL-E 2 i Midjourney, pretvaraju u sliku. Ovaj proces funkcioniše jer je VI tehnologija proučila mnogo postojećih slika i njihovih popratnih tekstualnih naslova i ta obuka tehnologiji omogućava da identificira uzorke koje zatim može ponovno stvoriti na temelju upita.
Istraživači su ovu obuku podigli korak dalje podučavajući model vještačke inteligencije za povezivanje podataka funkcionalne magnetske rezonancije (fMRI) sa slikama. Tačnije, istraživači su koristili fMRI skeniranje četiri sudionika koji su pogledali 10.000 različitih slika ljudi, krajolika i predmeta. Drugi VI model uvježbali su da poveže aktivnost mozga u fMRI podacima s tekstualnim opisima slika koje su gledali sudionici studije.
Zajedno, ova dva modela omogućila su Stable Diffusionu da fMRI podatke pretvori u relativno precizne imitacije slika koje nisu bile dio skupa za obuku VI-ja.
Dva modela
Na temelju skeniranja mozga, prvi model je mogao rekreirati perspektivu i raspored koji je sudionik vidio, ali njegove generirane slike bile su tek mutne figure. Potom se uključio drugi model, prepoznajući koji objekat ljudi gledaju pomoću tekstualnih opisa slika za obuku. Dakle, ako bi primio snimak mozga koja nalikuje onom iz njegove obuke označenu kao osoba koja gleda avion, stavio bi avion u generiranu sliku, slijedeći perspektivu prvog modela. Tehnologija je postigla otprilike 80 posto tačnosti.
Rekreirane slike nalikuju originalima, ali s nekim primjetnim razlikama. Verzija lokomotive koju je stvorila vještačka inteligencija, na primjer, obavijena je mutnom sivom maglom, umjesto da prikazuje veselo, jarko plavo nebo stvarne slike. VI-jev prikaz tornja sa satom izgleda više kao apstraktno umjetničko djelo nego kao njegova stvarna fotografija.
Tehnologija obećava, ali još ima neka ograničenja, upozorava Science. Ona može samo rekreirati slike objekata uključenih u njegov materijal za obuku. A budući da je vještačka inteligencija obradila moždanu aktivnost samo četvero ljudi, proširenje na ostale zahtijevalo bi obuku modela na skeniranju mozga svake nove osobe, što je skup i dugotrajan proces. Kao takva, tehnologija vjerojatno neće postati široko dostupna javnosti, barem ne u trenutnom obliku.