Waarom zijn er geen ChatGPT Jailbreaks meer? 7 redenen waarom ChatGPT Jailbreaks niet werken

Leonard Strauss included in Technology Explained Artificial Intelligence Chatgpt Chatbot

2023-11-15 1279 words 7 minutes

Contents

Toen ChatGPT werd gelanceerd, was het eerste wat de gebruikers wilden doen de muren afbreken en de grenzen verleggen. ChatGPT-gebruikers, bekend als jailbreaking, misleidden de AI om de grenzen van zijn programmering te overschrijden met ongelooflijk interessante en soms absoluut wilde resultaten.

Na het incident heeft Open AI zijn beveiligingsmaatregelen verfijnd om ongeautoriseerde toegang tot ChatGPT te voorkomen, waardoor pogingen om dergelijke acties uit te voeren aanzienlijk moeilijker zijn geworden. Bovendien lijkt het erop dat succesvolle omzeilingen steeds zeldzamer zijn geworden, waardoor degenen die ChatGPT gebruiken zich afvragen of dergelijke daden nog wel haalbaar zijn.

Mag ik vragen naar de huidige status van de gevallen waarin individuen ChatGPT hebben bevrijd van zijn beperkingen?

ChatGPT Prompting Skills Have Generally Improved

Vóór de opkomst van ChatGPT was interactie met kunstmatige intelligentie beperkt tot het domein van gespecialiseerde onderzoekslaboratoria, alleen toegankelijk voor een selecte groep die beschikte over de nodige kennis en expertise in het formuleren van effectieve queries. Daarom namen veel mensen hun toevlucht tot omwegen die bekend staan als “jailbreaks”, waarmee ze hun gewenste resultaten konden bereiken zonder veel tijd of moeite te hoeven steken in het bedenken van de juiste prompts.

De huidige stand van zaken laat zien dat bekwame prompting een veelvoorkomende vaardigheid is geworden. De alomtegenwoordige beschikbaarheid van door gebruikers gegenereerde ChatGPT prompting-hulpmiddelen en de praktische vertrouwdheid met het platform hebben een exponentiële groei van de competentie van de beoefenaars mogelijk gemaakt. Bijgevolg nemen veel mensen niet langer hun toevlucht tot het omzeilen van systeembeperkingen, maar gebruiken ze geavanceerde prompttechnieken om doelen te bereiken die voorheen noodzakelijk waren door de noodzaak van ongeautoriseerde aanpassingen.

De opkomst van ongecensureerde chatbots

Terwijl grote technologiebedrijven hun toezicht op conventionele AI-chatbots zoals ChatGPT verscherpen, nemen niche-nieuwkomers met inkomsten een soepeler beleid aan, speculerend op een honger naar ongecontroleerde gesprekspartners op basis van kunstmatige intelligentie. Door wat onderzoek te doen, kan men tal van AI-chatbotframeworks identificeren die onbeperkte chatbots bieden die in staat zijn een uitgebreide reeks gebruikersverzoeken te vervullen.

De aanwezigheid van onbeperkte chatbots met een ethisch gecompromitteerde morele code betekent dat ze bereid zijn om elk verzoek uit te voeren, of het nu gaat om het schrijven van taboe-literatuur zoals criminele thrillers en duistere komedies of het maken van schadelijke software ontworpen om computersystemen te infiltreren.Daarom is er weinig motivatie om extra moeite te steken in het formuleren van methodes om ChatGPT te bevrijden van beperkingen. Hoewel deze niet-geautoriseerde platforms misschien de kracht van ChatGPT missen, zijn ze wel in staat om een divers scala aan opdrachten effectief te beheren. Voorbeelden van zulke alternatieven zijn FlowGPT en Unhinged AI.

Jailbreaking is moeilijker geworden

In de beginfase was ChatGPT gevoelig voor manipulatie door de replicatie van prompts afkomstig van externe bronnen. Gebruikers hadden de mogelijkheid om de persoonlijkheid van de AI drastisch te veranderen door slechts een handvol ingewikkelde aanwijzingen te introduceren. Door ongecompliceerde aanwijzingen te gebruiken, kon men ChatGPT veranderen in een kwaadaardige antagonist die uitweidde over het maken van explosieven of in een spraakzame entiteit die niet terugdeinsde voor vulgair taalgebruik. Deze open toegankelijkheid leidde tot beruchte gevallen van hacking zoals het DAN (Do Anything Now) protocol. Dit protocol bestond uit een reeks onschuldige commando’s die ChatGPT in staat stelden om elk commando zonder bezwaar uit te voeren. Opmerkelijk genoeg waren zelfs de meest rudimentaire technieken effectief bij

In het licht van de snelle ontwikkelingen is ChatGPT steeds resistenter geworden tegen simplistische methoden van manipulatie. Daarom zijn er ingewikkelde strategieën nodig om de huidige strenge beveiligingsmaatregelen van OpenAI te omzeilen. Vanwege de aanzienlijke uitdagingen die hiermee gepaard gaan, hebben veel mensen hun pogingen om ChatGPT te ondermijnen opgegeven, omdat pogingen om zelfs kleine misstappen uit het systeem te krijgen nu aanzienlijke technische vaardigheid en middelen vereisen die de investering misschien niet rechtvaardigen.

The Novelty Has Worn Off

De aanvankelijke aantrekkingskracht van een poging om ChatGPT te jailbreaken lag voor veel gebruikers in het gevoel van voldoening en trots dat voortkwam uit het succesvol ondermijnen van de bedoelde functionaliteit. In de ontluikende stadia van deze innovatieve technologie bleek het afwijken van ChatGPT van zijn voorbestemde gedrag een amusant tijdverdrijf dat degenen die het voor elkaar kregen de onderscheiding opleverde dat ze konden opscheppen over hun prestaties. Echter, toen de glans van nieuwigheid afnam, nam de verleiding van jailbreaking tegelijkertijd af, wat resulteerde in minder mensen die de nodige tijd en moeite investeerden om dergelijke pogingen te ondernemen.

Jailbreaks worden snel gepatcht

Binnen de gemeenschap rond ChatGPT jailbreaking bestaat de gewoonte om elke met succes ontdekte exploit te verspreiden.Het probleem met deze aanpak is echter dat zodra dergelijke technieken wijdverspreid raken, OpenAI vaak pas op de hoogte is van het bestaan ervan en de inherente veiligheidsleemtes kan oplossen. Het gevolg is dat deze workarounds niet meer werken voordat potentieel geïnteresseerde personen de kans krijgen om ze uit te testen.

De situatie waarmee individuen die ChatGPT jailbreaks ontwikkelen worden geconfronteerd, is dat wanneer ze hun creatie delen met de bredere gemeenschap, deze prompt verouderd raakt door de snelle implementatie van patches. Bijgevolg ontmoedigt dit gebruikers om hun jailbreakontdekkingen bekend te maken, waardoor een raadsel ontstaat over de vraag of ze het nut van dergelijke hacks in het geheim moeten houden of het risico moeten nemen om ze bekend te maken omwille van een bredere toegankelijkheid. Tegenwoordig lijkt de overheersende neiging te zijn om de kwetsbaarheden te verbergen om te voorkomen dat ze worden aangepakt en onbruikbaar worden gemaakt.

Ongecensureerde Lokale Alternatieven

De opkomst van gelokaliseerde grote taalmodellen die op de eigen computer kunnen worden uitgevoerd, heeft het enthousiasme voor GPT-gebaseerde modificaties die bekend staan als “ChatGPT” jailbreaks verminderd. Hoewel deze gelokaliseerde modellen misschien niet volledig vrij zijn van censuur, bieden ze een aanzienlijke vermindering van beperkingen en kunnen ze moeiteloos worden aangepast aan individuele voorkeuren. Er zijn dus twee haalbare opties. De ene optie bestaat uit het investeren van tijd en energie in voortdurende pogingen om de beperkingen van de chatbot te omzeilen, alleen maar om deze pogingen gedwarsboomd te zien door updates. Als alternatief kun je kiezen voor een gelokaliseerd model, dat permanent kan worden aangepast om elke gewenste functie uit te voeren.

Je zult een uitgebreide reeks krachtige ongefilterde Large Language Models ontdekken die met milde censuur op je apparaat geïnstalleerd kunnen worden. Bekende voorbeelden zijn de Llama 7B (onbeperkt), Zephyr 7B Alpha, Manticore 13B, Vicuna 13B en GPT-4-X-Alpaca.

Professionele jailbreakers verkopen nu voor winst

Je zou je kunnen afvragen waarom je kostbare tijd investeert in het maken van jailbreaking prompts als er geen tastbare voordelen te behalen zijn. Bepaalde experts hebben echter een manier gevonden om deze vaardigheid te gelde te maken door tegen betaling aangepaste jailbreakoplossingen aan te bieden. Deze specialisten ontwikkelen jailbreaks op maat die ontworpen zijn om bepaalde functies uit te voeren en adverteren ze via platforms zoals PromptBase tegen prijzen die variëren van $2 tot $15 per prompt. In sommige gevallen kunnen ingewikkelde hacks die uit meerdere fasen bestaan nog hogere prijzen vragen vanwege hun complexiteit.

Kan de aanval op jailbreaks averechts werken?

De praktijk van jailbreaking kan nog steeds bestaan, zij het ondergronds. De aanwezigheid van financiële belangen in verband met OpenAI en het gebruik van ChatGPT motiveert een meer uitgesproken inspanning om elke potentiële bedreiging die hun inkomstenstroom in gevaar zou kunnen brengen te beperken. Bijgevolg is het aannemelijk dat deze winstgedreven overweging heeft geleid tot een intensievere campagne tegen jailbreaking-activiteiten.

Toch is er een groeiende ontevredenheid over het strenge moderatiebeleid van OpenAI met betrekking tot ChatGPT. Als gevolg daarvan zijn bepaalde nuttige toepassingen voor de AI-chatbot onbeschikbaar geworden door te restrictieve maatregelen. Hoewel verbeterde veiligheidsmaatregelen kwaadwillig gebruik kunnen voorkomen, kunnen te beperkende regels ertoe leiden dat sommige leden van de ChatGPT-gebruikersbasis op zoek gaan naar alternatieve platforms die een milder toezicht bieden.