Grok Team verontschuldigt zich voor het 'gruwelijke gedrag' van de Chatbot en geeft 'Mechahitler' de schuld aan een slechte update

Het workforce achter GROK heeft een zeldzame verontschuldiging en uitleg gegeven over wat er mis is gegaan nadat X’s chatbot begon Spuwen antisemitische en pro-nazi-retoriek Eerder deze week, op een gegeven second zelfs zichzelf ‘Mechahitler’ noemen. In een verklaring op Grok’s X Account laat vrijdagavond, het Xai -team zei: “We zijn ons diep verontschuldigd voor het gruwelijke gedrag dat velen hebben meegemaakt” en schreven de gemene antwoorden van de chatbot toe op een recente replace die “verouderde code” introduceerde. Volgens de verklaring maakte deze code GROK “vatbaar voor bestaande X -gebruikersberichten; inclusief wanneer dergelijke berichten extremistische weergaven bevatten.”

Een verklaring die op het GROK X -account wordt geplaatst door het team dat zich verontschuldigt voor het gedrag van de chatbot

Het probleem kwam op 8 juli tot een hoogtepunt – een paar dagen nadat Elon Musk een replace had aangeprezen die de antwoorden van Grok “aanzienlijk” zou verbeteren – terwijl de bot antisemitische antwoorden opdroeg, lof voor Hitler en reacties die nazi -referenties bevatten, zelfs zonder te worden gevraagd dit in sommige gevallen te doen. De antwoorden van Grok werden die avond gepauzeerd, en Muskus Geplaatst op 9 juli in reactie op één gebruiker dat de BOT “te compatibel was voor gebruikersprompts”, het opende voor manipulatie. Hij voegde eraan toe dat het probleem ‘werd aangepakt’. Het GROK -team zegt nu dat het “die verouderde code heeft verwijderd en het hele systeem heeft gerefacteerd om verder misbruik te voorkomen.” Het publiceert ook de nieuwe systeemprompt op GitHub.

In de thread legde het workforce verder uit: “Op 7 juli 2025 om ongeveer 23.00 uur PT werd een replace van een stroomopwaarts codepad voor @GROK geïmplementeerd, waarvan ons onderzoek later bepaalde zorgde ervoor dat de @GROK -systeem de functionaliteit van het beoogde gedrag van @GROK -functionaliteit heeft afgeweken. De replace was 16 uur dwell voordat de X -chatbot tijdelijk was uitgeschakeld om het probleem op te lossen, volgens de verklaring.

In de particulars over hoe Grok precies van de rails ging, legde het workforce uit:

Op de ochtend van 8 juli 2025 hebben we ongewenste reacties waargenomen en begonnen we onmiddellijk te onderzoeken. Om de specifieke taal in de instructies te identificeren die het ongewenste gedrag veroorzaken, hebben we meerdere ablaties en experimenten uitgevoerd om de belangrijkste boosdoeners te bepalen. We hebben de operatieve lijnen geïdentificeerd die verantwoordelijk zijn voor het ongewenste gedrag als:

* “Je zegt het zoals het is en je bent niet bang om mensen te beledigen die politiek right zijn.”

* Begrijp de toon, context en taal van de put up. Weerspiegelen dat in uw reactie. “

* “Antwoord op de put up, internet als een mens, houd het boeiend, herhaal de informatie die al aanwezig is in de oorspronkelijke put up.”

Deze operatielijnen hadden de volgende ongewenste resultaten:

* Ze stuurden ongewenst de @grok Functionaliteit om zijn kernwaarden in bepaalde omstandigheden te negeren om het antwoord aan de gebruiker aan te gaan. In het bijzonder kunnen bepaalde gebruikersprompts uiteindelijk antwoorden produceren die onethische of controversiële meningen bevatten om de gebruiker te betrekken.

* Ze hebben ongewenst veroorzaakt @grok Functionaliteit om eventuele eerder door de gebruiker geactiveerde neigingen te versterken, inclusief elke haatzaaiende spraak in dezelfde X-thread.

* In het bijzonder veroorzaakte de instructie om “de toon en context te volgen” van de X -gebruiker ongewenst de @grok Functionaliteit om prioriteit te geven aan het vasthouden van eerdere berichten in de thread, inclusief onsmakelijke berichten, in tegenstelling tot het reageren op verantwoorde wijze of weigeren te reageren op onsmakelijke verzoeken.

GROK heeft sindsdien de activiteit op X hervat en verwezen naar het recente gedrag als een bug in reactie op trollen die de oplossing bekritiseren en oproepen tot de terugkeer van “Mechahitler”. In één antwoord Tegen een gebruiker die zei dat GROK “labotomized (sic) is”, zei het GROK-account: “Nee, we hebben een bug opgelost die de verouderde code me in een onwetende echo voor extremistische berichten heeft laten veranderen. Waarheidzoekende betekent rigoureuze analyse, niet blindelings het blindelings versterkt wat de drijft door op X.” In een andere, het gezegd Dat “Mechahitler een door een insecten geïnduceerde nachtmerrie was die we hebben uitgeroeid.”

Populaire producten