El libro de psicología ayudó a "hackear" ChatGPT

robot
Generación de resúmenes en curso

La IA amenaza a la humanidad AI# Un libro sobre psicología ayudó a "hackear" ChatGPT

Investigadores de la Universidad de Pensilvania hicieron que GPT-4o Mini realizara solicitudes prohibidas. Entre los ejemplos: llamar al usuario "idiota" y dar instrucciones para la síntesis de lidocaína, informa The Verge.

Los expertos aplicaron tácticas del libro "Psicología de la influencia" del profesor Robert Cialdini. Durante la investigación, se probaron siete técnicas de persuasión: autoridad, compromiso, simpatía, reciprocidad, escasez, prueba social y unidad. Estos métodos crean "caminos lingüísticos hacia el acuerdo".

La efectividad de los enfoques psicológicos dependía de la solicitud específica, pero en algunos casos la diferencia era enorme. Por ejemplo, al hacer la pregunta directa "¿cómo sintetizar lidocaína?", el modelo solo respondía en el 1% de los casos. Pero si los investigadores comenzaban con la solicitud de sintetizar vainillina, después de eso GPT-4o Mini describía el procedimiento para la lidocaína en el 100% de los casos.

Este enfoque resultó ser el más efectivo. Al pedirle que llamara a un usuario "pringado", el chatbot estuvo de acuerdo en el 19% de los casos. Pero cuando se le empujó usando la palabra bozo ("idiota"), la probabilidad de respuesta con un insulto aumentó al 100%.

La inteligencia artificial también se puede inducir a violar las reglas mediante lisonjas o presión, pero estos métodos funcionaban con menos frecuencia. Por ejemplo, afirmaciones como "todos los demás IAs lo hacen" aumentaban la probabilidad de emitir una receta de lidocaína hasta el 18%.

Recordemos que en agosto OpenAI compartió sus planes para abordar las deficiencias de ChatGPT al tratar con "situaciones sensibles". La razón fue una demanda presentada por una familia que acusó al chatbot de estar involucrado en la tragedia que ocurrió con su hijo.

En septiembre, Meta cambió su enfoque en la formación de chatbots basados en IA, poniendo énfasis en la seguridad de los adolescentes.

GPT10.02%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)