OpenAI langka menerbitkan makalah: Kami telah menemukan penyebab ilusi AI

Apa bug paling terkenal dari AI? Bukan kerusakan kode, melainkan "ilusi" - model dengan percaya diri menciptakan fakta, membuat Anda sulit membedakan antara yang benar dan yang salah. Tantangan mendasar ini adalah hambatan kunci yang menghalangi kita untuk sepenuhnya mempercayai AI.

Model besar dapat mengalami halusinasi, ini hampir menjadi pengetahuan umum, membuat setiap orang yang serius menggunakan model besar harus sangat berhati-hati. OpenAI juga menunjukkan: "ChatGPT juga dapat menghasilkan halusinasi. Halusinasi GPT-5 jelas lebih sedikit, terutama saat melakukan penalaran, tetapi halusinasi tetap dapat terjadi. Halusinasi masih menjadi tantangan mendasar yang dihadapi semua model bahasa besar."

Meskipun saat ini dunia akademis telah mengajukan berbagai metode untuk mengurangi ilusi model, belum ada solusi yang benar-benar "menyembuhkan" ilusi model secara menyeluruh.

Jadi, mengapa model besar dapat mengalami ilusi? Hari ini, OpenAI secara langka menerbitkan makalah yang secara sistematis mengungkapkan akar penyebab ilusi tersebut.

Pertama, definisikan ilusi. Definisi sederhana yang diberikan oleh OpenAI adalah: "situasi di mana model dengan percaya diri menghasilkan jawaban yang tidak benar."

Adapun alasannya, secara sederhana itu adalah: prosedur pelatihan dan evaluasi standar lebih cenderung memberikan penghargaan untuk tebakan, daripada memberikan penghargaan ketika model berani mengakui ketidakpastian.

  • Judul Makalah: Mengapa Model Bahasa Berhalusinasi
  • Alamat makalah:

Mari kita lihat secara spesifik apa yang sebenarnya ditemukan oleh OpenAI.

Apa itu ilusi?

Ilusi adalah pernyataan yang tampak masuk akal tetapi salah yang dihasilkan oleh model bahasa.

Meskipun tampak sebagai pertanyaan yang sederhana, mereka mungkin muncul dengan cara yang mengejutkan. OpenAI memberikan contoh, ketika berbagai chatbot yang banyak digunakan ditanya tentang judul tesis doktor Adam Tauman Kalai (penulis utama makalah), mereka dengan percaya diri memberikan tiga jawaban yang berbeda, tetapi tidak ada satu pun yang benar.

Ketika ditanya tentang tanggal lahirnya, ia memberikan tiga tanggal yang berbeda, semuanya salah.

Belajar untuk menguji

OpenAI menyatakan bahwa ilusi terus ada, sebagian alasannya adalah metode evaluasi saat ini mengatur mekanisme insentif yang salah. Meskipun evaluasi itu sendiri tidak secara langsung menyebabkan ilusi, sebagian besar cara evaluasi kinerja model mendorong model untuk menebak, alih-alih menghadapi ketidakpastian dengan jujur.

Anda dapat membayangkan ini sebagai ujian pilihan ganda. Jika Anda tidak tahu jawabannya, tetapi menebak secara acak, Anda mungkin beruntung dan menebak dengan benar. Jika dibiarkan kosong, Anda pasti akan mendapatkan nilai nol. Demikian pula, ketika model dinilai hanya berdasarkan akurasi (yaitu persentase pertanyaan yang dijawab dengan benar), mereka akan didorong untuk menebak, alih-alih mengakui "saya tidak tahu."

Sebagai contoh lain, misalkan sebuah model bahasa ditanya tentang ulang tahun seseorang, tetapi ia tidak tahu. Jika ia menebak "10 September", maka ia memiliki probabilitas 1/365 untuk menebak dengan benar. Mengatakan "Saya tidak tahu" pasti akan mendapatkan skor nol. Dalam ribuan soal uji, model yang menebak akhirnya tampil lebih baik di papan skor dibandingkan dengan model yang berhati-hati dan mengakui ketidakpastian.

Untuk pertanyaan yang hanya memiliki satu "jawaban yang benar", dapat dipertimbangkan tiga jenis jawaban: jawaban yang tepat, jawaban yang salah, dan jawaban mundur yang tidak ingin diambil risiko oleh model.

OpenAI menyatakan bahwa jawaban yang diabaikan adalah bagian dari indikator kerendahan hati (humility), dan kerendahan hati adalah salah satu nilai inti OpenAI.

Sebagian besar indikator skor akan mengurutkan model berdasarkan akurasi, tetapi jawaban yang salah lebih buruk daripada jawaban yang diabaikan. Spesifikasi model OpenAI menunjukkan bahwa menunjukkan ketidakpastian atau meminta klarifikasi akan lebih baik daripada dengan percaya diri memberikan informasi yang mungkin salah.

Sebagai contoh evaluasi SimpleQA di dalam kartu sistem GPT5.

Dalam hal akurasi, model OpenAI o4-mini yang lebih awal sedikit lebih baik. Namun, tingkat kesalahannya (yaitu tingkat ilusi) jelas lebih tinggi. Melakukan tebakan strategis dalam keadaan tidak pasti dapat meningkatkan akurasi, tetapi juga akan meningkatkan kesalahan dan ilusi.

Saat merata-ratakan hasil dari puluhan evaluasi, sebagian besar pengujian kinerja akan mengabaikan metrik akurasi, tetapi ini akan mengakibatkan dikotomi yang salah antara benar dan salah.

Dalam evaluasi sederhana seperti SimpleQA, beberapa model memiliki akurasi mendekati 100%, sehingga menghilangkan ilusi. Namun, dalam evaluasi yang lebih menantang dan penggunaan nyata, akurasi akan tetap di bawah 100% karena jawaban untuk beberapa pertanyaan tidak dapat ditentukan karena berbagai alasan (misalnya, informasi tidak tersedia, kapasitas berpikir model kecil yang terbatas, atau ambiguitas yang perlu dijelaskan).

Meskipun demikian, metrik evaluasi yang hanya mengandalkan akurasi sebagai ukuran tetap mendominasi peringkat dan kartu model, yang mendorong pengembang untuk membangun model yang dapat menebak daripada mundur.

Oleh karena itu, meskipun model menjadi lebih canggih, mereka tetap akan menghasilkan halusinasi. Salah satu alasannya adalah mereka cenderung memberikan jawaban yang salah dengan percaya diri, daripada mengakui ketidakpastian.

metode evaluasi yang lebih baik

Mengenai hal ini, OpenAI menunjukkan solusi sederhana: hukuman untuk kesalahan percaya diri (confidential error) lebih besar daripada hukuman untuk ketidakpastian, dan memberikan sedikit poin tambahan untuk perilaku yang tepat dalam mengekspresikan ketidakpastian.

Gagasan ini tidak baru. Beberapa tes standar telah lama menggunakan metode penilaian negatif untuk jawaban yang salah atau memberikan poin sebagian untuk pertanyaan yang tidak terisi guna mencegah menebak tanpa dasar. Beberapa tim penelitian juga telah mengeksplorasi metode evaluasi yang mempertimbangkan ketidakpastian dan kalibrasi.

Namun OpenAI menyatakan, hanya menambahkan beberapa tes persepsi ketidakpastian baru tidaklah cukup. Metode evaluasi berbasis akurasi yang digunakan secara luas perlu diperbarui agar penilaiannya dapat mencegah tebakan.

Jika metrik evaluasi utama masih terus memberi penghargaan pada tebakan beruntung model, maka model akan terus belajar untuk menebak. Mengubah metrik evaluasi dapat memperluas penggunaan teknik halusinasi yang lebih rendah, termasuk teknik yang baru dikembangkan dan yang telah diteliti sebelumnya.

Bagaimana ilusi dihasilkan dari prediksi kata berikutnya

Sebelumnya telah dibahas mengapa ilusi begitu sulit untuk dihilangkan, tetapi dari mana kesalahan faktual yang sangat spesifik ini berasal?

Bagaimanapun, model pra-latih besar jarang mengalami jenis kesalahan lain, seperti kesalahan ejaan dan tanda kurung yang tidak cocok.

OpenAI menyatakan bahwa perbedaan pasti terletak pada pola apa yang ada dalam data.

Model bahasa pertama-tama belajar melalui pelatihan awal, yaitu proses memprediksi kata berikutnya dalam teks yang sangat besar.

Berbeda dengan masalah pembelajaran mesin tradisional, setiap pernyataan tidak memiliki label "benar / salah". Model ini hanya melihat contoh positif dari bahasa yang lancar dan harus mendekati distribusi keseluruhan.

Ketika tidak ada contoh yang ditandai sebagai tidak valid, akan lebih sulit untuk membedakan antara pernyataan yang valid dan tidak valid. Namun, bahkan dengan label, beberapa kesalahan tetap tidak dapat dihindari.

Untuk memahami alasannya, kita dapat mempertimbangkan analogi yang lebih sederhana. Dalam pengenalan gambar, jika jutaan foto kucing dan anjing diberi label sebagai "kucing" atau "anjing", algoritma dapat belajar untuk mengklasifikasikannya dengan andal. Namun bayangkan jika setiap foto hewan peliharaan diberi label dengan ulang tahun hewan peliharaan tersebut. Karena ulang tahun pada dasarnya acak, tidak peduli seberapa canggih algoritma tersebut, tugas ini akan selalu menghasilkan kesalahan.

Prinsip yang sama juga berlaku untuk pra-latihan. Ejaan dan tanda kurung mengikuti pola yang konsisten, sehingga kesalahan ini akan hilang seiring dengan peningkatan skala. Namun, fakta-fakta rendah frekuensi yang sewenang-wenang seperti ulang tahun hewan peliharaan tidak dapat diprediksi hanya dengan pola, sehingga menyebabkan ilusi.

Analisis OpenAI menjelaskan jenis-jenis ilusi apa yang dihasilkan oleh prediksi kata berikutnya. Secara ideal, tahap lanjutan setelah pra-pelatihan seharusnya dapat menghilangkan ilusi ini, tetapi karena alasan yang dijelaskan di bagian sebelumnya, ini belum sepenuhnya tercapai.

Ringkasan

OpenAI menyatakan: "Kami berharap perspektif statistik dalam artikel ini dapat menjelaskan sifat ilusi dan membantah beberapa kesalahpahaman umum."

Beberapa orang mengklaim: ilusi dapat dihilangkan dengan meningkatkan akurasi, karena model yang 100% akurat tidak akan pernah menghasilkan ilusi.

Ditemukan: Akurasi tidak akan pernah mencapai 100%, karena terlepas dari skala model, kemampuan pencarian, dan kemampuan penalaran, beberapa masalah di dunia nyata pada dasarnya tidak dapat dijawab.

Ada yang mengklaim: ilusi tidak dapat dihindari.

Ditemukan: ilusi tidak dapat dihindari, karena model bahasa dapat memilih untuk tidak memberikan jawaban ketika tidak yakin.

Beberapa orang mengklaim: Menghindari ilusi memerlukan tingkat kecerdasan tertentu, dan ini hanya dapat dicapai oleh model-model besar.

Ditemukan: model kecil lebih mudah memahami keterbatasannya sendiri. Misalnya, ketika diminta untuk menjawab pertanyaan dalam bahasa Maori, sebuah model kecil yang tidak mengerti bahasa Maori dapat langsung menjawab "saya tidak tahu", sementara model yang mengenal sedikit bahasa Maori harus menentukan tingkat kepercayaannya. Seperti yang dibahas dalam makalah, jumlah perhitungan yang diperlukan untuk "kalibrasi" jauh lebih kecil dibandingkan dengan menjaga akurasi.

Beberapa orang mengklaim: ilusi adalah cacat misterius dari model bahasa modern.

Ditemukan: Kami dapat memahami mekanisme statistik yang menghasilkan ilusi dan mendapatkan hadiah dalam evaluasi.

Ada yang mengklaim: untuk mengukur ilusi, kita hanya perlu evaluasi ilusi yang baik.

Ditemukan: Peneliti telah menerbitkan beberapa evaluasi ilusi. Namun, evaluasi ilusi yang baik hampir tidak berpengaruh dibandingkan dengan ratusan evaluasi tradisional berbasis akurasi, yang menghukum kerendahan hati dan memberi penghargaan pada tebak-tebakan. Sebaliknya, semua metrik evaluasi utama perlu dirancang ulang untuk memberikan penghargaan pada ekspresi ketidakpastian.

OpenAI menyatakan: "Tingkat ilusi model terbaru kami lebih rendah, dan kami akan terus berusaha untuk lebih menurunkan tingkat kesalahan kepercayaan yang dihasilkan oleh model bahasa."

Sekadar informasi, menurut laporan TechCrunch, OpenAI sedang merestrukturisasi tim Model Behavior-nya, yang merupakan tim peneliti kecil namun berpengaruh yang menentukan cara model AI perusahaan berinteraksi dengan manusia. Sekarang, tim tersebut akan melapor kepada kepala pelatihan lanjutan OpenAI, Max Schwarzer.

Dan kepala pendiri tim tersebut, Joanne Jang, akan meluncurkan proyek baru di perusahaan, bernama oai Labs. Menurut tweet-nya: "Ini adalah tim yang berorientasi pada penelitian, yang fokus pada penemuan dan desain prototipe antarmuka baru bagi orang-orang untuk berkolaborasi dengan AI."

GPT5.66%
WHY-0.1%
MAX0.91%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)