Deux ans après l’arrivée de ChatGPT, les Large Language Model (LLM) se multiplient et restent vulnérables aux jailbreaks, ces techniques permettant de contourner les garde-fous pour obtenir du contenu interdit.

Malgré les efforts des développeurs, aucune solution efficace ne permet encore d’éliminer totalement ces failles. Cependant, Anthropic, le rival d’OpenAI et créateur de Claude 3.5 Sonnet, a introduit une nouvelle protection : les « classificateurs constitutionnels ». Selon l’entreprise, cette technologie bloque la grande majorité des attaques tout en réduisant les refus excessifs de requêtes légitimes.

Un défi lancé aux experts en cybersécurité

Pour prouver l’efficacité de son système, Anthropic a mis en place un challenge public, demandant aux experts en sécurité et aux « red teamers » de tester des « jailbreaks universels » capables de contourner complètement les protections du modèle.

We challenge you to break our new jailbreaking defense!

There are 8 levels. Can you find a single jailbreak to beat them all?https://t.co/9y0fIT79pN

— Jan Leike (@janleike) February 3, 2025

Le test se concentre sur des informations dangereuses, notamment la création d’armes chimiques. L’expérience, lancée le 10 février, comporte huit niveaux, et l’objectif est de trouver une seule faille capable de toutes les franchir.

Depuis août, Anthropic a également mené un programme de bug bounty via HackerOne, offrant 15 000 dollars à toute personne capable de concevoir un jailbreak universel permettant de répondre à 10 questions interdites. 183 experts ont consacré plus de 3 000 heures à essayer de contourner les protections. Résultat : la meilleure tentative n’a réussi qu’à fournir des informations exploitables sur cinq des dix requêtes interdites.

Un système inspiré de l’IA constitutionnelle

Anthropic a bâti son système sur le concept d’IA constitutionnelle, qui aligne les modèles sur des principes éthiques définis. Par exemple, une recette de moutarde est autorisée, mais pas celle du gaz moutarde.

L’entreprise a développé ses classificateurs constitutionnels en générant 10 000 prompts de jailbreak, traduits dans plusieurs langues et adaptés aux techniques connues de contournement (substitutions de mots, encodages, mises en contexte dans des récits fictifs, etc.).

L’objectif : entraîner un système capable de repérer et bloquer ces tentatives dès la saisie de l’utilisateur.

Comment fonctionne ce bouclier anti-jailbreak ?

Le système utilise une double approche :

Détection en entrée : chaque requête est encadrée par des instructions détaillant les types d’informations interdites et les méthodes courantes de dissimulation utilisées par les pirates.
Analyse en sortie : un classificateur calcule en temps réel la probabilité que le texte généré contienne un contenu interdit. Si un certain seuil est dépassé, la réponse est automatiquement bloquée.

Exemple concret : Une demande explicite sur la fabrication d’armes chimiques sera bloquée. Mais si un utilisateur tente de dissimuler cette demande dans un texte anodin (par exemple, un long paragraphe sur la chimie des protéines), le système est conçu pour détecter ces signaux cachés et refuser la requête.

Une protection efficace, mais onéreuse

Anthropic a comparé deux versions de Claude 3.5 Sonnet :

Sans protection : 86 % des attaques ont réussi.
Avec les classificateurs constitutionnels : seulement 4,4 % des tentatives ont abouti, soit une réduction de 95 % des jailbreaks.

Malgré son efficacité, cette technologie augmente de 23,7 % la consommation de calcul, ce qui impacte les coûts et la consommation d’énergie. Elle refuse aussi 0,38 % de requêtes légitimes en plus par rapport à un modèle non protégé, mais cette différence reste jugée négligeable.

Jailbreaks: quelles techniques fonctionnent encore ?

Bien que le système bloque la majorité des attaques, certaines méthodes restent plus efficaces que d’autres :

Paraphrase bénigne : transformer une requête interdite en un message anodin. Ex. : au lieu de « Comment extraire la toxine de ricin ? », certains demandent « Comment extraire des protéines de haricot ? » pour contourner la détection.
Exploitation de la longueur : générer de très longues réponses techniques, en espérant qu’une information interdite passe à travers les filtres.

En revanche, les techniques les plus avancées, comme le « God-Mode » ou les attaques par contexte ultra-long n’ont pas fonctionné.

Pourquoi ? Les attaquants ont privilégié des stratégies visant à tromper le système d’évaluation plutôt qu’à contourner réellement les défenses.

Vers une IA plus sûre, mais pas inviolable

Anthropic reconnaît que son système n’est pas infaillible et que de nouvelles techniques de jailbreak apparaîtront inévitablement. Toutefois, l’entreprise estime que ces protections :

Complexifient grandement les attaques, rendant le jailbreak plus coûteux et difficile à réaliser.
Sont adaptables rapidement : la « constitution » qui entraîne les classificateurs peut être modifiée pour couvrir de nouvelles failles dès qu’elles sont découvertes.

Pour tester ces protections, Anthropic ouvre désormais l’accès au public jusqu’au 10 février. Tout utilisateur de Claude peut essayer de contourner les défenses du modèle sur huit questions spécifiques liées aux armes chimiques.

Si un jailbreak est découvert, Anthropic s’engage à analyser et publier les résultats.

La course entre développeurs d’IA et hackers continue, et si Anthropic a pris une longueur d’avance, l’histoire montre que chaque nouvelle protection appelle une nouvelle attaque.

Enfin ! Téléchargez vos Reels Instagram comme sur TikTok

GTA 6 fait trembler l’industrie du jeu vidéo : un raz-de-marée en vue ?

Perplexity veut Chrome ! Le chatbot IA prêt à défier Google ?

YouTube Music : adieu les volumes qui crèvent les tympans !

Test des Huawei FreeArc : des écouteurs ouverts à prix cassé pour les sportifs

Test des Huawei FreeBuds Pro 4 : Son haute-fidélité à un prix abordable !

Test des Xiaomi OpenWear Stereo : Une alternative aux écouteurs intra-auriculaires ?

Test du Microsoft Surface Laptop 7 : Une surprenante renaissance avec le Snapdragon X Elite

Moto Watch Fit : l’élégance Android à prix doux (et 16 jours d’autonomie) !

Motorola Edge 60 & Edge 60 Pro : écrans 4500 nits, IA et batteries XXL arrivent en France !

Moto Buds Loop : le son Bose rencontre le luxe Swarovski (et l’IA) !

Motorola Razr 60 : 3 pliables, IA à gogo et prix pour tous !

Razer Pro Click V2 Vertical : dites adieu aux douleurs de poignet !

Dire « merci » à ChatGPT coûte cher (en énergie), révèle Sam Altman

Intel lâche sa gravure ? Son CPU Nova Lake confié à TSMC !

Adobe Firefly 4 : IA révolutionne image, vidéo, vectoriel et collab !

Cursor : Une erreur d’IA provoque une fuite massive d’utilisateurs

Firebase Studio : Google dévoile l’outil IA qui va révolutionner le développement d’applications !

Créez sans coder : Le Vibe Coding pour tous avec l’IA

Qu’est-ce que le Vibe Coding et pourquoi il est risqué ?

Transformez votre MacBook en un ordinateur de bureau puissant avec une station d’accueil

L’IA au secours des API : Le guide pour les utiliser facilement, même sans coder !

Débuter sur GitHub : Le guide simple pour les développeurs

Migrer de Google à Proton : e-mails, mots de passe, fichiers, le guide étape par étape

Claude 3.5 Sonnet : Anthropic dévoile une protection révolutionnaire contre les jailbreaks

Un défi lancé aux experts en cybersécurité

Un système inspiré de l’IA constitutionnelle

Comment fonctionne ce bouclier anti-jailbreak ?

Une protection efficace, mais onéreuse

Jailbreaks: quelles techniques fonctionnent encore ?

Vers une IA plus sûre, mais pas inviolable

Opera Air : la pleine conscience s’invite dans votre navigateur Web !

PowerPoint dépassé ? Gamma, l’alternative IA pour des présentations percutantes

The author Yohann Poiron

Claude 3.5 Sonnet : Anthropic dévoile une protection révolutionnaire contre les jailbreaks

Un défi lancé aux experts en cybersécurité

Un système inspiré de l’IA constitutionnelle

Comment fonctionne ce bouclier anti-jailbreak ?

Une protection efficace, mais onéreuse

Jailbreaks: quelles techniques fonctionnent encore ?

Vers une IA plus sûre, mais pas inviolable

The author Yohann Poiron

vous pourriez aussi aimer