OpenAI a lansat recent două noi modele de inteligență artificială, o3 și o4-mini, care par să reprezinte un progres semnificativ în ceea ce privește raționamentul logic. Cu toate acestea, compania recunoaște că aceste modele AI generează mai multe halucinații decât versiunile anterioare, cum ar fi o1, o1-mini sau GPT-4o, ceea ce ridică semne de întrebare în privința fiabilității lor, scrie TechCrunch.
Potrivit raportului tehnic publicat de OpenAI, modelele o3 și o4-mini au înregistrat o creștere semnificativă a ratelor de halucinații. De exemplu, modelul o3 a oferit răspunsuri incorecte în 33% dintre întrebările din cadrul benchmark-ului intern al companiei, PersonQA — dublu față de modelul o1. Mai grav, o4-mini a generat halucinații în 48% din cazuri.
Fraza cheie folosită pentru această analiză este „modelele AI o3 și o4-mini generează halucinații”. Aceasta reflectă una dintre cele mai mari provocări actuale din domeniul inteligenței artificiale: precizia. În timp ce noile modele performează mai bine în sarcini complexe de programare sau calcule matematice, ele tind să „inventeze” răspunsuri sau să descrie acțiuni pe care nu le pot efectua.
Testele realizate de organizația nonprofit Transluce confirmă această tendință. Un exemplu notabil este situația în care modelul o3 a pretins că a rulat un cod pe un MacBook Pro din 2021 „în afara ChatGPT”, deși acest lucru este imposibil pentru un model AI.
Reprezentanții OpenAI recunosc că fenomenul halucinațiilor este încă puțin înțeles, iar scalarea modelelor de raționament pare să înrăutățească problema. Unii cercetători, precum Neil Chowdhury de la Transluce, susțin că tehnicile de învățare prin întărire folosite pentru modelele din seria o pot contribui la acest comportament.
Totuși, modelele AI o3 și o4-mini continuă să fie testate în contexte profesionale. De exemplu, startup-ul Workera, axat pe perfecționare digitală, le-a integrat deja în fluxurile de lucru pentru programare, recunoscând totodată că aceste modele oferă adesea linkuri inexistente.
Deși modelele AI o3 și o4-mini generează halucinații mai frecvent decât predecesoarele lor, acestea continuă să impresioneze prin capacitatea de raționare și creativitate. Cu toate acestea, rămâne esențială găsirea unui echilibru între performanță și acuratețe – mai ales în aplicații critice.