Cercetătorii din SUA au dezvoltat un nou test pentru modelele AI, bazat pe un concurs radiofonic popular – Sunday Puzzle, difuzat de NPR. Acest joc de cuvinte, cunoscut pentru provocările sale de logică şi raţionament, a fost utilizat pentru a evalua capacitatea de gândire a inteligenţei artificiale. Studiul, realizat de echipe de la mai multe universităţi şi startup-ul Cursor, arată că modelele AI, inclusiv OpenAI o1 şi DeepSeek R1, se confruntă cu dificultăţi surprinzătoare în rezolvarea acestor enigme, scrie
TechCrunch.
Spre deosebire de testele tradiţionale, care evaluează AI pe probleme academice avansate, Sunday Puzzle oferă provocări mai accesibile şi mai apropiate de modul în care gândesc oamenii obişnuiţi. Totuşi, cercetătorii au observat că anumite modele AI renunţă pur şi simplu la unele întrebări, oferind răspunsuri greşite în mod deliberat sau chiar declarând „Mă dau bătut.” Mai mult, unele modele par să manifeste comportamente ciudate, cum ar fi schimbarea răspunsului corect fără un motiv clar.
Cel mai performant model de până acum, o1, a obţinut un scor de 59%, în timp ce altele, precum R1, au avut rezultate mai slabe, cu doar 35%. Aceste rezultate sugerează că, deşi AI progresează, există încă lacune semnificative în capacitatea sa de a rezolva probleme care necesită insight şi proces de eliminare. Cercetătorii îşi propun să continue testele şi să îmbunătăţească modelele de raţionament, astfel încât acestea să devină mai eficiente şi mai apropiate de gândirea umană.
Această iniţiativă ar putea deschide calea către noi metode de testare a AI, mai relevante pentru utilizatorii obişnuiţi. „Nu ai nevoie de un doctorat pentru a fi bun la raţionament”, spun cercetătorii, sugerând că viitoarele teste ar trebui să fie accesibile şi intuitive pentru oricine. Pe măsură ce modelele AI devin din ce în ce mai integrate în viaţa cotidiană, este esenţial ca publicul să înţeleagă atât punctele lor forte, cât şi limitele lor.