AI versus ghicitori. Cine cedează primul?

  • Cercetătorii testează AI folosind un concurs radiofonic celebru, Sunday Puzzle.
  • Modelele AI renunţă uneori la provocări şi oferă răspunsuri greşite în mod deliberat.
  • Studiul evidenţiază limitele actuale ale inteligenţei artificiale în raţionament logic.
Urmărește
56 afișări
Imaginea articolului AI versus ghicitori. Cine cedează primul?
Cercetătorii din SUA au dezvoltat un nou test pentru modelele AI, bazat pe un concurs radiofonic popular – Sunday Puzzle, difuzat de NPR. Acest joc de cuvinte, cunoscut pentru provocările sale de logică şi raţionament, a fost utilizat pentru a evalua capacitatea de gândire a inteligenţei artificiale. Studiul, realizat de echipe de la mai multe universităţi şi startup-ul Cursor, arată că modelele AI, inclusiv OpenAI o1 şi DeepSeek R1, se confruntă cu dificultăţi surprinzătoare în rezolvarea acestor enigme, scrie TechCrunch.
 
Spre deosebire de testele tradiţionale, care evaluează AI pe probleme academice avansate, Sunday Puzzle oferă provocări mai accesibile şi mai apropiate de modul în care gândesc oamenii obişnuiţi. Totuşi, cercetătorii au observat că anumite modele AI renunţă pur şi simplu la unele întrebări, oferind răspunsuri greşite în mod deliberat sau chiar declarând „Mă dau bătut.” Mai mult, unele modele par să manifeste comportamente ciudate, cum ar fi schimbarea răspunsului corect fără un motiv clar.
 
Cel mai performant model de până acum, o1, a obţinut un scor de 59%, în timp ce altele, precum R1, au avut rezultate mai slabe, cu doar 35%. Aceste rezultate sugerează că, deşi AI progresează, există încă lacune semnificative în capacitatea sa de a rezolva probleme care necesită insight şi proces de eliminare. Cercetătorii îşi propun să continue testele şi să îmbunătăţească modelele de raţionament, astfel încât acestea să devină mai eficiente şi mai apropiate de gândirea umană.
 
Această iniţiativă ar putea deschide calea către noi metode de testare a AI, mai relevante pentru utilizatorii obişnuiţi. „Nu ai nevoie de un doctorat pentru a fi bun la raţionament”, spun cercetătorii, sugerând că viitoarele teste ar trebui să fie accesibile şi intuitive pentru oricine. Pe măsură ce modelele AI devin din ce în ce mai integrate în viaţa cotidiană, este esenţial ca publicul să înţeleagă atât punctele lor forte, cât şi limitele lor.

Pentru cele mai importante ştiri ale zilei, transmise în timp real şi prezentate echidistant, daţi LIKE paginii noastre de Facebook!

Urmărește Mediafax pe Instagram ca să vezi imagini spectaculoase și povești din toată lumea!

Conținutul website-ului www.mediafax.ro este destinat exclusiv informării și uzului dumneavoastră personal. Este interzisă republicarea conținutului acestui site în lipsa unui acord din partea MEDIAFAX. Pentru a obține acest acord, vă rugăm să ne contactați la adresa vanzari@mediafax.ro.

 

Preluarea fără cost a materialelor de presă (text, foto si/sau video), purtătoare de drepturi de proprietate intelectuală, este aprobată de către www.mediafax.ro doar în limita a 250 de semne. Spaţiile şi URL-ul/hyperlink-ul nu sunt luate în considerare în numerotarea semnelor. Preluarea de informaţii poate fi făcută numai în acord cu termenii agreaţi şi menţionaţi aici