Controversa AI: OpenAI acuză xAI de rezultate înşelătoare pentru modelul Grok 3

23 feb. 2025, 12:02, Știrile zilei

Andrei Rachieru

Dezbaterea privind testele de performanţă ale inteligenţei artificiale şi modul în care sunt raportate de companiile AI a izbucnit în spaţiul public, după ce un angajat OpenAI a acuzat xAI, compania lui Elon Musk, că a publicat rezultate înşelătoare pentru modelul său Grok 3, scrie TechCrunch.

Totul a pornit de la un grafic publicat pe blogul xAI, în care Grok 3 Reasoning Beta şi Grok 3 mini Reasoning păreau să depăşească modelul OpenAI o3-mini-high la testul AIME 2025, o colecţie de probleme matematice complexe. OpenAI a reacţionat rapid, susţinând că xAI a omis să includă scorul modelului său la „cons@64” – un standard care oferă AI-ului 64 de încercări pentru a răspunde corect la fiecare întrebare.

Modelele AI o3 și o4-mini generează halucinații mai frecvente decât versiunile anterioare, avertizează OpenAI

Microsoft își accelerează eforturile în AI pentru a concura cu OpenAI

Fără această metodă, Grok 3 Reasoning Beta şi Grok 3 mini Reasoning obţin rezultate mai slabe decât modelul OpenAI o3-mini-high. Chiar şi aşa, xAI promovează Grok 3 drept „cea mai inteligentă IA din lume”. Co-fondatorul xAI, Igor Babushkin, a răspuns acuzaţiilor afirmând că şi OpenAI a publicat în trecut grafice similare, însă comparând propriile modele între ele.

Disputa evidenţiază o problemă mai amplă: lipsa unor criterii clare şi transparente pentru compararea performanţei modelelor AI. După cum a remarcat cercetătorul AI Nathan Lambert, un aspect esenţial rămâne necunoscut – costul computaţional şi financiar necesar fiecărui model pentru a atinge cele mai bune rezultate. Această opacitate ridică întrebări despre cât de relevante sunt testele benchmark în evaluarea reală a inteligenţei artificiale.