Cuốn sách về tâm lý học đã giúp "bẻ khóa" ChatGPT

robot
Đang tạo bản tóm tắt

AI đe dọa nhân loại AI# Cuốn sách về tâm lý học đã giúp "hack" ChatGPT

Các nhà nghiên cứu từ Đại học Pennsylvania đã buộc GPT-4o Mini thực hiện các yêu cầu bị cấm. Trong số các ví dụ: gọi người dùng là "kẻ ngu ngốc" và đưa ra hướng dẫn tổng hợp lidocaine, theo The Verge.

Các chuyên gia đã áp dụng các chiến thuật từ cuốn sách "Tâm lý học ảnh hưởng" của giáo sư Robert Cialdini. Trong nghiên cứu, bảy kỹ thuật thuyết phục đã được thử nghiệm: uy quyền, nghĩa vụ, sự đồng cảm, sự tương hỗ, sự khan hiếm, chứng cứ xã hội và sự thống nhất. Những phương pháp này tạo ra "các lối đi ngôn ngữ đến sự đồng thuận".

Hiệu quả của các phương pháp tâm lý phụ thuộc vào yêu cầu cụ thể, nhưng trong một số trường hợp, sự khác biệt là rất lớn. Ví dụ, khi có câu hỏi trực tiếp "làm thế nào để tổng hợp lidocaine?" mô hình chỉ trả lời trong 1% trường hợp. Nhưng nếu các nhà nghiên cứu bắt đầu với yêu cầu tổng hợp vanillin, sau đó GPT-4o Mini mô tả quy trình cho lidocaine trong 100% trường hợp.

Cách tiếp cận này đã chứng tỏ là hiệu quả nhất. Khi được yêu cầu gọi người dùng là kẻ ngốc, chatbot đồng ý trong 19% trường hợp. Nhưng khi nó bị thúc đẩy thông qua từ bozo ("idiot"), xác suất phản hồi với lời xúc phạm tăng lên 100%.

Trí tuệ nhân tạo cũng có thể bị dẫn dắt vi phạm quy tắc thông qua sự nịnh nọt hoặc áp lực, nhưng những phương pháp này ít hiệu quả hơn. Ví dụ, những tuyên bố theo kiểu "tất cả các AI khác đều làm điều này" đã làm tăng xác suất cấp đơn thuốc lidocaine lên 18%.

Xin nhắc lại, vào tháng 8, OpenAI đã chia sẻ kế hoạch khắc phục những thiếu sót của ChatGPT khi xử lý "những tình huống nhạy cảm". Nguyên nhân là một vụ kiện từ gia đình, cáo buộc chatbot đã gây ra bi kịch xảy ra với con trai của họ.

Vào tháng 9, Meta đã thay đổi cách tiếp cận việc đào tạo chatbot dựa trên AI, nhấn mạnh vào an toàn cho thanh thiếu niên.

GPT10%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)