Een nieuwe AI -coderingsuitdaging heeft zojuist zijn eerste resultaten gepubliceerd - en ze zijn niet mooi

Een nieuwe AI-coderingsuitdaging heeft zijn eerste winnaar onthuld-en een nieuwe balk voor AI-aangedreven software-ingenieurs.

Op woensdag om 17.00 uur PST kondigde het non-profit Laude Institute de eerste winnaar aan van de Okay Prize, een multi-round AI Coding Problem die werd gelanceerd door Databricks en mede-oprichter Andy Konwinski. De winnaar was een Braziliaanse promptingenieur genaamd Eduardo Rocha de Andrade, die $ 50.000 ontvangt voor de prijs. Maar meer verrassend dan de overwinning was zijn uiteindelijke rating: hij gained met de juiste antwoorden op slechts 7,5% van de vragen op de check.

“We zijn blij dat we een benchmark hebben gebouwd die eigenlijk moeilijk is,” zei Konwinski. “Benchmarks moeten moeilijk zijn als ze er toe doen,” vervolgde hij en voegde eraan toe: “Scores zouden anders zijn als de grote laboratoria hun grootste modellen waren binnengekomen. Maar dat is een beetje het punt. Okay -prijs loopt offline met beperkte reken, dus het is voorstander van kleinere en open modellen. Ik vind het geweldig.

Konwinski heeft $ 1 miljoen toegezegd aan het eerste open-source-model dat op de check hoger dan 90% kan scoren.

Web als het bekende SWE-banksysteem, check de Okay-prijsmodellen tegen gemarkeerde problemen van GitHub als een check van hoe goed modellen kunnen omgaan met real-world programmeerproblemen. Maar hoewel SWE-Bench is gebaseerd op een vaste reeks problemen waarmee modellen kunnen trainen, is de Okay-prijs ontworpen als een “vervuilingsvrije versie van SWE-Bench”, met behulp van een getimed instapsysteem om te bewaken tegen elke benchmark-specifieke coaching. Voor de eerste ronde waren modellen vóór 12 maart. De Okay -prijsorganisatoren bouwden vervolgens de check met alleen GitHub -problemen die na die datum zijn gemarkeerd.

De topscore van 7,5% staat in een duidelijk distinction met SWE-Bench zelf, die momenteel een topscore van 75% toont op zijn gemakkelijkere ‘geverifieerde’ check en 34% op zijn hardere ‘volledige’ check. Konwinski weet nog steeds niet zeker of de ongelijkheid te wijten is aan verontreiniging op SWE-Bench of gewoon de uitdaging om nieuwe problemen van GitHub te verzamelen, maar hij verwacht dat het Okay-prijsproject de vraag binnenkort zal beantwoorden.

“Naarmate we meer runs van het ding krijgen, zullen we een beter gevoel hebben,” vertelde hij TechCrunch, “omdat we verwachten dat mensen zich om de paar maanden aanpassen aan de dynamiek om hierop te concurreren.”

TechCrunch -evenement

San Francisco
|
27-29 oktober 2025

Het lijkt misschien een vreemde plek om tekortschiet, gezien het brede scala aan AI -coderingstools die al openbaar beschikbaar zijn – maar met benchmarks die te gemakkelijk worden, zien veel critici projecten zoals de Okay -prijs als een noodzakelijke stap in de richting van oplossen AI’s groeiende evaluatieprobleem.

“Ik ben finest bullish over het bouwen van nieuwe checks voor bestaande benchmarks”, zegt Princeton -onderzoeker Sayash Kapoor, die een soortgelijk idee naar voren bracht in een recent artikel. “Zonder dergelijke experimenten kunnen we niet echt zeggen of het probleem besmetting is, of zelfs alleen gericht op het SWE-Bench-leaderboard met een mens in de lus.”

Voor Konwinski is het niet alleen een betere benchmark, maar een open uitdaging voor de relaxation van de industrie. “Als je naar de hype luistert, is het alsof we AI -artsen en AI -advocaten en AI -software -ingenieurs zouden moeten zien, en dat is gewoon niet waar”, zegt hij. “Als we niet eens meer dan 10% kunnen krijgen op een verontreinigingsvrije swe-bank, is dat de actuality verify voor mij.”

Populaire producten