Openai's GPT-5 is onwaarschijnlijk dat de AI-agenten veel van een upgrade geven

Terwijl 2025 aanbrak, promootte Openai CEO Sam Altman twee ontwikkelingen die hij erop stond ons leven te transformeren. Een daarvan was natuurlijk GPT-5 -Een langverwachte belangrijke improve naar het grote taalmodel (LLM) die Chatgpt’s opkomst naar Tech World Superstardom heeft aangedreven.

De andere? AI -agenten die niet alleen uw vragen zoals Chatgpt beantwoorden, maar eigenlijk dingen voor u doen. “Wij zijn van mening dat we in 2025 de eerste AI -agenten kunnen zien deelnemen aan het personeelsbestand en de output van bedrijven aanzienlijk veranderen,” Altman geschreven terug in januari.

Nou, we zijn acht maanden later en Altman’s voorspelling heeft al een grote oude asterisk nodig. Natuurlijk, bedrijven willen graag AI -agenten aannemen, zoals de chatgpt -agent van Openai. In een MEI 2025 Rapport, Consultancy Giant PWC gevonden Die helft van alle onderzochte bedrijven was van plan om tegen het einde van het jaar een soort AI -agent te implementeren. Ongeveer 88% van de leidinggevenden willen de AI -budgetten van hun groups verhogen vanwege Agentic AI.

Zie ook:

GPT-5 arriveert inderdaad. Dit is wat de hype je niet zal vertellen.

Maar hoe zit het met de werkelijke AI Agent -ervaring? Met excuses aan al die hoopvolle leidinggevenden, zijn de beoordelingen bijna uniform negatief.

Als “AI Brokers” een nieuwe hightech James Bond-film was, is hier het soort blurbs dat je zou zien op rotte tomaten: “Glitchy … inconsistent“(Bedraad);”kwam uit als een clueless internet newbie“(Quick Firm);”De realiteit voldoet niet aan de hype“(Fortune);”niet overeenkomen met de modewoorden“(Bloomberg),”de nieuwe daporware … Overpromatisering is erger dan ooit“(Forbes).

Studie vindt de inzending van Openai bijna elke keer mislukt

A Mei 2025 Carnegie Mellon University Study (PDF) vond Google’s Gemini Professional 2.5 mislukt bij real-world kantoortaken 70% van de tijd. En dat was de greatest-performatie -agent. De inzending van Openai, aangedreven door GPT 4.O, is meer dan 90% van de tijd mislukt.

GPT-5 zal waarschijnlijk dat aantal verbeteren … maar dat zegt niet veel. En niet alleen omdat vroege rapporten zeggen Openai worstelde om GPT-5 te vullen met voldoende verbeteringen om het release-nummer waardig te maken.

Inderdaad, het begint te kijken naar onderzoekers zoals deze teleurstelling, wordt ingebouwd in het hele proces van LLM’s die leren om dingen voor je te doen. Het probleem, zoals dit Analyse van AI Agent Engineer Maakt duidelijk, is eenvoudige wiskunde: foutenverbindingen in de loop van de tijd, dus hoe meer taken een agent doet, hoe erger ze worden. AI -agenten die meerdere complexe taken uitvoeren, zijn vatbaar voor hallucinatie, zoals alle AI.

Mashable Lichtsnelheid

Uiteindelijk “paniek” van sommige agenten en kunnen “een catastrofale beoordelingsfout” maken om een verontschuldiging van een te citeren Replit AI -agent die letterlijk de database van een klant heeft verwijderd na 9 dagen werken aan een coderingstaak. (Replit’s CEO noemde de storing “onaanvaardbaar”.).

Veelzeggend is dat niet de enige Ai-agent-wipes-code Verhaal van 2025 – waarin wordt uitgelegd waarom één ondernemende startup is Verzekering aanbieden aan uw AI -agent die in de war brengten waarom Wal-Mart heeft vier “Super Agents” moeten binnenhalen in een poging om zijn AI -agenten te corraleren.

Geen surprise a Recente Gartner -paper Voorspelde dat 40% van al die AI -agenten die momenteel door bedrijven worden geïnitieerd binnen 2 jaar zal worden geannuleerd. “De meeste agentische AI -projecten”, schreef senior analist Anushree Verma, worden “gedreven door hype en verkeerd toegepast … Dit kunnen blinde organisaties voor de werkelijke kosten en complexiteit van het op schaal van AI inzetten.”

Wat kan GPT-5 doen voor AI-agenten?

Het is mogelijk dat chatgpt-agent naar de prime van de betrouwbaarheidskaarten zal kloppen zodra deze wordt aangedreven door GPT-5. (Nogmaals, dat is niet de hoogste barrières.) Maar het is onwaarschijnlijk dat de nieuwe launch de agentische wereld echt zal oplossen.

Dat komt omdat vangrails al worden opgericht – door bedrijven en toezichthouders – het afsluiten van wat zelfs de meest betrouwbare AI -agent voor u kan doen.

Neem bijvoorbeeld Amazon. ‘S Werelds grootste retailer is, zoals de meeste techreuzen, is Een groot spel praten over AI -agenten (Zoals ze deden op een Shanghai Agentic AI -beurs in juli, hierboven afgebeeld). Tegelijkertijd, Amazon heeft het vermogen van elke AI -agent afgesloten om overal op de web site te bladeren en te kopen.

Dat is logisch voor Amazon, dat altijd al controle over de klantervaring heeft gewild, om nog maar te zwijgen over de wens om advertenties en gesponsorde resultaten aan werkelijke menselijke oogbollen te leveren. Maar het beperkt ook een enorme hoeveelheid potentiële agentactiviteit daar. (Aan de positieve kant, geen “catastrofale storing” met een grote stapel leveringen van de volgende dag aan uw deur.)

En vertrouwen we er toch op AI -agenten om on-line voor ons te kopen? Het is niet dat ze slecht zijn en uw creditcardgegevens willen stelen; Het is dat ze naïef en kwetsbaar zijn om te worden gefilt door slechte acteurs die Doen wil je kaart.

Zelfs GPT-5 kan misschien niet rondkomen Eén kwetsbaarheid gezien door onderzoekers: Gegevens ingebed in afbeeldingen kunnen AI -agenten instrueren om alle creditcardinformatie te onthullen die ze kunnen hebben, waarbij de gebruiker niet wijzer is.

Als dat soort probleem op een bedrijfsschaal wordt benut, kan Altman gelijk hebben over AI -agenten “materieel veranderende output” – alleen niet zoals hij bedoelde.

Onderwerpen
Kunstmatige intelligentie
Openai

Populaire producten