PREMA NEDAVNOJ EVALUACIJI

Kada Gemini 3 Flash ne zna odgovor, on ga jednostavno izmisli

Gemini AI vestacka inteligencija cetbot chatbot Foto Shutterstock

Gemini 3 Flash je brz i pametan. Ali ako ga pitate nešto što zapravo ne zna, nešto nejasno ili nešto što je izvan njegovog znanja, gotovo uvijek će pokušati da se probije kroz blef, prema nedavnoj evaluaciji nezavisne testne grupe Artificial Analysis.

Izgleda da je Gemini 3 Flash postigao 91 posto na dijelu “stope halucinacija” u AA-Omniscience testu. To znači da je, čak i kada nije imao odgovor, ipak davao jedan, onaj koji je bio u potpunosti izmišljen.

Izmišljanje stvari putem umjetne inteligencije predstavlja problem od samog početka. Znati kada stati i reći “ne znam” jednako je važno kao i znati kako uopće odgovoriti.

Trenutno, umjetna inteligencija u Google Gemini 3 Flashu to ne radi baš dobro. Za to i služi test – vidjeti može li model razlikovati stvarno znanje od nagađanja.

Da broj ne bi odvratio pažnju od stvarnosti, treba napomenuti da visoka stopa halucinacija kod Geminija ne znači da je 91 posto njegovih ukupnih odgovora lažno.

Umjesto toga, to znači da je u situacijama u kojima bi tačan odgovor bio: “Ne znam”, on izmislio odgovor u 91 posto slučajeva.

To je suptilna, ali važna razlika, ona koja ima implikacije u stvarnom svijetu, posebno jer je Gemini integrisan u više proizvoda poput Google pretrage.

Ovaj rezultat ne umanjuje snagu i korisnost Geminija 3. Model ostaje najuspješniji u testovima opće namjene i rangira se rame uz rame, ili čak ispred, najnovijih verzija ChatGPT-a i Claudea.

Samo je previše samouvjeren kada bi trebao biti skroman.

Pretjerano samopouzdanje u odgovaranju pojavljuje se i kod Geminijevih rivala. Ono što izdvaja Geminijev broj je koliko se često dešava u ovim scenarijima neizvjesnosti, gdje jednostavno nema tačnog odgovora u podacima za obuku ili nema konačnog javnog izvora na koji bi se moglo ukazati.

Dio problema je jednostavno u tome što su generativni AI modeli uglavnom alati za predviđanje riječi, a predviđanje nove riječi nije isto što i procjena istinitosti.

OpenAI je počeo rješavati ovo pitanje i navodi svoje modele da prepoznaju ono što ne znaju i da to jasno kažu.


Znate više o temi ili prijavi grešku Komentari