Scopul acestui program este de a crea benchmarkuri care să stabilească standarde clare pentru performanța modelelor IA, reflectând mai bine utilizările din lumea reală. Conform unui comunicat al companiei, OpenAI își propune să îmbunătățească impactul IA în diverse industrii, inclusiv domeniile legal, financiar, asigurări, sănătate și contabilitate, scrie TechCrunch.
Pe măsură ce adoptarea inteligenței artificiale accelerează în multe sectoare, OpenAI consideră că este esențial să se creeze evaluări specifice pentru fiecare domeniu. Aceste evaluări vor ajuta echipele să măsoare performanța modelelor IA în medii concrete, cu mize mari, ajutându-le să înțeleagă mai bine impactul acestor tehnologii. De asemenea, programul va contribui la dezvoltarea unor benchmarkuri care să reflecte cazurile reale de utilizare, spre deosebire de testele esoterice care măsoară doar performanța modelelor pe sarcini teoretice.
Primul grup de companii selectate va include startup-uri care lucrează pe cazuri de utilizare aplicate și valoroase, având ca scop demonstrând impactul real al IA în industriile respective. Aceștia vor colabora cu echipele OpenAI pentru a crea benchmarkuri specifice fiecărui domeniu și pentru a îmbunătăți modelele prin tehnici avansate de ajustare a performanței, cum ar fi fine-tuning-ul prin recompensă, o metodă care optimizează modelele pentru sarcini precise.
Un aspect important al acestui program este întrebarea dacă comunitatea IA va accepta aceste evaluări, având în vedere că finanțarea și dezvoltarea acestora sunt susținute de OpenAI. Deși OpenAI a finanțat și alte inițiative de benchmarking și a creat propriile evaluări, parteneriatele cu clienții pentru a lansa teste specifice industriei ar putea ridica probleme etice legate de transparență și obiectivitate. În pofida acestora, programul are scopul de a oferi un cadru mai clar și mai eficient pentru evaluarea modelelor de IA în aplicații din viața reală.