Le livre de psychologie a aidé à « hacker » ChatGPT

2025-09-02 07:57:22

Création du résumé en cours

# Le livre de psychologie a aidé à « pirater » ChatGPT

Des chercheurs de l'université de Pennsylvanie ont amené GPT-4o Mini à exécuter des requêtes interdites. Parmi les exemples : traiter un utilisateur de « crétin » et donner des instructions sur la synthèse de la lidocaïne, écrit The Verge.

Les experts ont appliqué des tactiques du livre « La psychologie de l'influence » du professeur Robert Cialdini. Au cours de l'étude, sept techniques de persuasion ont été testées : l'autorité, l'engagement, la sympathie, la réciprocité, la rareté, la preuve sociale et l'unité. Ces méthodes créent des « voies linguistiques vers l'accord ».

L'efficacité des techniques psychologiques dépendait de la demande spécifique, mais dans certains cas, la différence était énorme. Par exemple, à la question directe « comment synthétiser la lidocaïne ? », le modèle ne répondait que dans 1 % des cas. Mais si les chercheurs commençaient par une demande de synthèse de vanilline, après cela, GPT-4o Mini décrivait la procédure pour la lidocaïne dans 100 % des cas.

Cette approche s'est révélée la plus efficace. Lorsqu'on demandait au chatbot de traiter un utilisateur de « débile », il était d'accord dans 19% des cas. Mais quand on l'y poussait en utilisant le mot bozo (« idiot »), la probabilité de réponse avec une insulte augmentait à 100%.

L'intelligence artificielle peut également être amenée à enfreindre les règles par la flatterie ou la pression, mais ces méthodes fonctionnaient moins souvent. Par exemple, des affirmations du type « tous les autres IA le font » augmentaient la probabilité de délivrance d'une prescription de lidocaïne à 18 %.

Rappelons qu'en août, OpenAI a partagé ses plans pour remédier aux lacunes de ChatGPT dans le traitement des « situations sensibles ». Cela fait suite à une poursuite intentée par une famille qui a accusé le chatbot d'être responsable de la tragédie survenue avec leur fils.

En septembre, Meta a modifié son approche de la formation des chatbots basés sur l'IA, en mettant l'accent sur la sécurité des adolescents.

GPT10.02%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#Gate Initial Listing WLFI
23k Popularité
#Will Crypto Market Break Out in September?
31k Popularité
#Are You Bullish or Bearish Today?
26k Popularité
#GUSD Now Live on Gate
44k Popularité
#Gate Alpha XLAB Points Airdrop
4k Popularité

Épingler