- Home
- Tehnologie
- (23.02.2025, 12:02)
- Andrei Rachieru
Controversa AI: OpenAI acuză xAI de rezultate înşelătoare pentru modelul Grok 3
- OpenAI acuză xAI de manipularea rezultatelor benchmark-ului AIME 2025 pentru Grok 3.
- Dezbaterea scoate la iveală problemele evaluării performanţei modelelor AI.

Controversa AI: OpenAI acuză xAI de rezultate înşelătoare pentru modelul Grok 3
Dezbaterea privind testele de performanţă ale inteligenţei artificiale şi modul în care sunt raportate de companiile AI a izbucnit în spaţiul public, după ce un angajat OpenAI a acuzat xAI, compania lui Elon Musk, că a publicat rezultate înşelătoare pentru modelul său Grok 3, scrie TechCrunch.
Totul a pornit de la un grafic publicat pe blogul xAI, în care Grok 3 Reasoning Beta şi Grok 3 mini Reasoning păreau să depăşească modelul OpenAI o3-mini-high la testul AIME 2025, o colecţie de probleme matematice complexe. OpenAI a reacţionat rapid, susţinând că xAI a omis să includă scorul modelului său la „cons@64” - un standard care oferă AI-ului 64 de încercări pentru a răspunde corect la fiecare întrebare.
Fără această metodă, Grok 3 Reasoning Beta şi Grok 3 mini Reasoning obţin rezultate mai slabe decât modelul OpenAI o3-mini-high. Chiar şi aşa, xAI promovează Grok 3 drept „cea mai inteligentă IA din lume”. Co-fondatorul xAI, Igor Babushkin, a răspuns acuzaţiilor afirmând că şi OpenAI a publicat în trecut grafice similare, însă comparând propriile modele între ele.
Disputa evidenţiază o problemă mai amplă: lipsa unor criterii clare şi transparente pentru compararea performanţei modelelor AI. După cum a remarcat cercetătorul AI Nathan Lambert, un aspect esenţial rămâne necunoscut - costul computaţional şi financiar necesar fiecărui model pentru a atinge cele mai bune rezultate. Această opacitate ridică întrebări despre cât de relevante sunt testele benchmark în evaluarea reală a inteligenţei artificiale.
Pentru cele mai importante ştiri ale zilei, transmise în timp real şi prezentate echidistant, daţi LIKE paginii noastre de Facebook!
Urmărește Mediafax pe Instagram ca să vezi imagini spectaculoase și povești din toată lumea!


Conținutul website-ului www.mediafax.ro este destinat exclusiv informării și uzului dumneavoastră personal. Este interzisă republicarea conținutului acestui site în lipsa unui acord din partea MEDIAFAX. Pentru a obține acest acord, vă rugăm să ne contactați la adresa vanzari@mediafax.ro.



CANCAN.RO

GANDUL.RO


ULTIMA ORǍ
vezi mai multe