Renforcement de ChatGPT contre les attaques d'injection de prompt

Renforcement de ChatGPT contre les attaques d'injection de prompt

OpenAI

ChatGPT

10 déc. 2025

Une visualisation numérique d'un système d'IA avancé présente un décor futuriste avec des interfaces bleues et orange lumineuses, entourées de racks de serveurs et d'inscriptions numériques comme "EXFILTRATION" et "CONTOURNER", symbolisant le thème du renforcement de ChatGPT contre les attaques d'injection de commandes. Cette illustration invite les leaders d'affaires à explorer comment l'IA peut optimiser leurs flux de travail.

Pas sûr de quoi faire ensuite avec l'IA?
Évaluez la préparation, les risques et les priorités en moins d'une heure.

Pas sûr de quoi faire ensuite avec l'IA?
Évaluez la préparation, les risques et les priorités en moins d'une heure.

➔ Téléchargez notre kit de préparation à l'IA gratuit

Comment OpenAI prévient-il l'injection de commande dans ChatGPT ?
OpenAI combine la red teaming automatisée alimentée par l'apprentissage par renforcement, des atténuations en couches pour les modèles et les produits, ainsi que des conseils pour les développeurs. Ces mesures découvrent de manière proactive les exploits, renforcent la sécurité des agents et des surfaces de navigation, et aident les créateurs à limiter les entrées/sorties et l'utilisation des outils, réduisant ainsi l'exfiltration de données et les actions mal orientées.

L'injection de commande est une catégorie d'attaques où du texte malveillant tente de contourner les instructions d'un système d'IA, d'exfiltrer des données ou de déclencher des actions involontaires. Cela est particulièrement pertinent pour les scénarios agentiques (par exemple, la navigation, les outils ou l'utilisation de l'ordinateur) où les modèles peuvent lire du contenu non fiable et prendre des mesures suivantes.

Quoi de neuf et pourquoi est-ce important

OpenAI renforce continuellement ChatGPT (y compris les expériences Atlas et agentielles) contre l'injection de commande. Une avancée clé est la red teaming automatisée alimentée par l'apprentissage par renforcement, qui découvre et corrige les failles exploitables du monde réel avant que les attaquants ne puissent les utiliser. Cela déplace la sécurité à gauche, en identifiant les problèmes plus tôt et en améliorant la résilience au fil du temps.

OpenAI publie également des conseils pratiques pour les développeurs pour une conception résistante à l'injection de commande (limitation des entrées/sorties, limitation des portées des outils et isolation des données non fiables) et explique les risques spécifiques aux agents dans la documentation produit (par exemple, comment un agent peut rencontrer des instructions hostiles en naviguant).

Comment OpenAI aborde l'injection de commande

  • Red teaming automatisée (pilotée par l’apprentissage par renforcement). L'apprentissage par renforcement étend les tests d'adversité pour explorer de nouvelles failles et chemins d'injection, aidant les équipes à trouver et à corriger les vulnérabilités dans les flux agentiques plus rapidement que les tests manuels seuls.

  • Exercices de red team approfondis. OpenAI mène des red-teamings internes et externes axés spécifiquement sur l'injection de commande pour émuler le comportement des attaquants et intégrer les mesures d'atténuation dans les modèles et les surfaces produits.

  • Atténuations en couches dans les surfaces des agents. Pour les modes de navigation/agents (par exemple, Atlas), OpenAI met l'accent sur les défenses contre les instructions adverses dans le contenu web et d'autres sources non fiables, réduisant la probabilité que du texte injecté puisse orienter le comportement.

  • Mesures de sécurité pour les développeurs. Les documents d'OpenAI détaillent des contrôles concrets—tels que la limitation de la longueur des entrées utilisateur, la limitation des tokens de sortie, et le filtrage des entrées acceptées vers des sources fiables—pour réduire le risque d'injection dans les applications construites sur l’API.

Définition : Une injection de commande se produit lorsque du texte ou des données non fiables tentent de supplanter les instructions d'un système d'IA, d'exfiltrer des informations sensibles ou de déclencher des actions involontaires (par exemple, via des outils). C'est un défi de sécurité de pointe pour les systèmes agentiques qui lisent et agissent sur du contenu externe.

Étapes pratiques que les développeurs peuvent entreprendre dès aujourd'hui

Même avec de solides contrôles au niveau de la plateforme, la défense en profondeur est essentielle lorsque vous intégrez ChatGPT dans votre produit ou construisez des agents :

  1. Limiter les entrées et les sorties. Limiter les champs de texte libre, valider/liste blanche des entrées (par exemple, des listes déroulantes pour des entités connues), et limiter les tokens de sortie pour réduire la surface d'attaque.

  2. Isoler et assainir le contenu non fiable. Traitez tout ce qui est récupéré sur le web, les fichiers ou les outils externes comme non fiable. Évitez de le concaténer aveuglément dans les instructions système.

  3. Limiter les outils et les autorisations. Utilisez le principe du moindre privilège pour les actions/APIs, gardez les secrets hors des commandes, et requérez une confirmation explicite de l'utilisateur pour les opérations sensibles.

  4. Renforcer les flux de l'agent. Lors de l'activation de la navigation ou de l'utilisation de l'ordinateur, reconnaître les vérifications de sécurité et mettre en pause/requérir une approbation pour les actions à fort impact ; concevoir pour un “humain en boucle” à des moments critiques.

  5. Surveiller et consigner. Capturer les commandes, appels d'outils et sorties pour audit. Définir des alertes pour les séquences anormales (par exemple, accès inattendu à un domaine ou mouvement de données).

  6. Red team régulièrement. Incorporez des commandes d'adversité dans l'assurance qualité ; utilisez des playbooks qui simulent des tentatives d'exfiltration d'injection et suivez le rappel/précision de vos propres couches de détection. (OpenAI rapporte des tests d'injection robustes sur les surfaces et produits des agents.)

Considérations spécifiques à l'agent

Comme le note OpenAI, lorsqu'un agent recherche du contenu, il peut rencontrer des instructions hostiles intégrées dans des pages ou retournées par des outils. Le risque est l'exfiltration de données ou des actions mal orientées. Concevez votre agent pour traiter le texte tiers comme non fiable, appliquer des listes blanches et exiger une approbation pour les appels d'outils privilégiés.

Pour les déploiements d'entreprise, OpenAI documente un accès réseau verrouillé pour les conversations d'applications, des contrôles d'accès stricts, et le chiffrement—des contrôles en couches qui réduisent davantage le rayon d'action d'une injection.

FAQs

Q1 : Qu'est-ce que l'injection de commande dans l'IA ?
C'est lorsque du texte non fiable tente de supplanter les instructions d'un système d'IA ou de déclencher des actions involontaires (comme l'exfiltration de données via un appel d'outil). C'est un risque clé pour les agents qui lisent du contenu externe.

Q2 : Comment l'apprentissage par renforcement améliore-t-il la sécurité ?
OpenAI utilise la red teaming automatisée alimentée par l'AR pour explorer/apprendre des stratégies d'attaque à grande échelle, découvrant de manière proactive des exploits dans les flux d'agents afin que les mesures d'atténuation puissent être déployées plus tôt.

Q3 : Quel rôle joue la red teaming ?
La red teaming interne/externe approfondie émule le comportement des attaquants, informe sur les atténuations de produits/modèles, et élève le niveau sur les tentatives d'injection dans les fonctionnalités de ChatGPT.

Q4 : Que doivent faire les développeurs lorsqu'ils construisent avec l'API ou les agents ?
Limiter les entrées/sorties, isoler le contenu non fiable, limiter les outils, consigner les actions, et ajouter des portes d'approbation pour les opérations sensibles—en suivant les meilleures pratiques de sécurité d'OpenAI.

Recevez chaque semaine des nouvelles et des conseils sur l'IA directement dans votre boîte de réception

En vous abonnant, vous consentez à ce que Génération Numérique stocke et traite vos informations conformément à notre politique de confidentialité. Vous pouvez lire la politique complète sur gend.co/privacy.

Ateliers et webinaires à venir

A diverse group of professionals collaborating around a table in a bright, modern office setting.

Clarté opérationnelle à grande échelle - Asana

Webinaire Virtuel
Mercredi 25 février 2026
En ligne

A diverse group of professionals collaborating around a table in a bright, modern office setting.

Collaborez avec des coéquipiers IA - Asana

Atelier en personne
Jeudi 26 février 2026
London, UK

A diverse group of professionals collaborating around a table in a bright, modern office setting.

De l'idée au prototype - L'IA dans Miro

Webinaire virtuel
Mercredi 18 février 2026
En ligne

Génération
Numérique

Bureau du Royaume-Uni

Génération Numérique Ltée
33 rue Queen,
Londres
EC4R 1AP
Royaume-Uni

Bureau au Canada

Génération Numérique Amériques Inc
181 rue Bay, Suite 1800
Toronto, ON, M5J 2T9
Canada

Bureau aux États-Unis

Generation Digital Americas Inc
77 Sands St,
Brooklyn, NY 11201,
États-Unis

Bureau de l'UE

Génération de logiciels numériques
Bâtiment Elgee
Dundalk
A91 X2R3
Irlande

Bureau du Moyen-Orient

6994 Alsharq 3890,
An Narjis,
Riyad 13343,
Arabie Saoudite

UK Fast Growth Index UBS Logo
Financial Times FT 1000 Logo
Febe Growth 100 Logo (Background Removed)

Numéro d'entreprise : 256 9431 77 | Droits d'auteur 2026 | Conditions générales | Politique de confidentialité

Génération
Numérique

Bureau du Royaume-Uni

Génération Numérique Ltée
33 rue Queen,
Londres
EC4R 1AP
Royaume-Uni

Bureau au Canada

Génération Numérique Amériques Inc
181 rue Bay, Suite 1800
Toronto, ON, M5J 2T9
Canada

Bureau aux États-Unis

Generation Digital Americas Inc
77 Sands St,
Brooklyn, NY 11201,
États-Unis

Bureau de l'UE

Génération de logiciels numériques
Bâtiment Elgee
Dundalk
A91 X2R3
Irlande

Bureau du Moyen-Orient

6994 Alsharq 3890,
An Narjis,
Riyad 13343,
Arabie Saoudite

UK Fast Growth Index UBS Logo
Financial Times FT 1000 Logo
Febe Growth 100 Logo (Background Removed)


Numéro d'entreprise : 256 9431 77
Conditions générales
Politique de confidentialité
Droit d'auteur 2026