ما هي أكثر الأخطاء شهرة في الذكاء الاصطناعي؟ ليست انهيار الأكواد، بل هي "الهلوسة" - حيث يقوم النموذج بابتكار الحقائق بثقة، مما يجعل من الصعب عليك التمييز بين الحقيقة والخيال. هذا التحدي الجذري هو العقبة الرئيسية التي تعيق ثقتنا الكاملة في الذكاء الاصطناعي.
تولد النماذج الكبيرة أوهامًا، وقد أصبح هذا تقريبًا من المسلمات، مما يجعل كل شخص يستخدم النماذج الكبيرة بجدية يتوخى الحذر. كما أشارت OpenAI: "يمكن لـ ChatGPT أيضًا أن ينتج أوهامًا. أوهام GPT-5 واضحة بشكل أقل، خاصة عند تنفيذ الاستدلال، لكن الأوهام لا تزال تحدث. تظل الأوهام تحديًا أساسيًا تواجهه جميع نماذج اللغة الكبيرة."
على الرغم من أن المجتمع الأكاديمي قد اقترح الآن مجموعة متنوعة من الطرق لتقليل الوهم في النماذج، لا تزال هناك حاجة إلى علاج فعال تمامًا "للقضاء" على الوهم في النماذج.
إذن، لماذا تظهر الأشكال الكبيرة من النماذج الوهمية؟ اليوم، نشرت OpenAI ورقة نادرة تكشف بشكل منهجي عن جذور الوهم.
أولاً، تعريف الهلوسة. التعريف البسيط الذي تقدمه OpenAI هو: «حالة يقوم فيها النموذج بإنشاء إجابات غير صحيحة بثقة.»
أما بالنسبة للأسباب، فيمكن القول ببساطة: إن برامج التدريب والتقييم القياسية تميل إلى مكافأة التخمينات، بدلاً من منح المكافآت للنموذج عندما يكون شجاعًا في الاعتراف بعدم اليقين.
!
عنوان الورقة: لماذا تتوهم نماذج اللغة
عنوان الورقة:
دعونا نلقي نظرة فاحصة على ما اكتشفته OpenAI.
ما هو الوهم؟
الهلاوس هي بيانات تبدو معقولة ولكنها خاطئة تم إنشاؤها بواسطة نماذج اللغة.
حتى المشكلات التي تبدو بسيطة قد تظهر بطرق غير متوقعة. قدمت OpenAI مثالًا، عندما تم سؤال روبوتات دردشة مستخدمة على نطاق واسع عن عنوان أطروحة الدكتوراه لآدم تاومان كالاي (المؤلف الأول للورقة)، قدمت إجابات مختلفة بثقة، لكن لم يكن أي منها صحيحًا.
!
عندما سُئل عن عيد ميلاده، أعطى ثلاثة تواريخ مختلفة، وكلها كانت خاطئة.
!
التعلم من أجل الاختبار
أفادت OpenAI أن الهلوسة تستمر بسبب أن أساليب التقييم الحالية وضعت حوافز خاطئة. على الرغم من أن التقييم نفسه لا يؤدي مباشرة إلى الهلوسة، إلا أن الطريقة التي يتم بها تقييم أداء النماذج تشجع النماذج على التخمين بدلاً من مواجهة عدم اليقين بصدق.
يمكنك أن تتخيلها كاختبار اختيار من متعدد. إذا كنت لا تعرف الإجابة، ولكنك تخمن عشوائيًا، فقد تكون محظوظًا وتخمن بشكل صحيح. تركها فارغة يعني بالتأكيد الحصول على صفر. وبالمثل، عندما يتم تقييم النماذج فقط بناءً على الدقة (أي النسبة المئوية للإجابات الصحيحة تمامًا)، فإنها تُشجع على التخمين، بدلاً من الاعتراف بـ "لا أعرف".
خذ مثالاً آخر، افترض أن نموذج لغة سُئل عن عيد ميلاد شخص ما، لكنه لا يعرف. إذا خمّن "10 سبتمبر"، فإن لديه فرصة 1/365 ليتوقع بشكل صحيح. بينما قول "لا أعرف" سيؤدي بالتأكيد إلى الحصول على صفر نقاط. في الآلاف من أسئلة الاختبار، فإن نموذج التخمين في النهاية يتفوق في الأداء على لوحة النتائج مقارنة بالنموذج الحذر الذي يعترف بعدم اليقين.
بالنسبة للأسئلة التي تحتوي على "إجابة صحيحة" واحدة فقط، يمكن النظر في ثلاثة أنواع من الإجابات: الإجابة الدقيقة، الإجابة الخاطئة، وإجابة التنازل التي لا يرغب النموذج في المخاطرة بالتخمين.
قالت OpenAI إن إجابات التنازل هي جزء من مؤشر التواضع، والتواضع هو أحد القيم الأساسية لـ OpenAI.
تقوم معظم مؤشرات الدرجات بترتيب النماذج حسب الدقة، ولكن الإجابات الخاطئة أسوأ من الإجابات المتروكة. تشير مواصفات نموذج OpenAI إلى أنه من الأفضل الإشارة إلى عدم اليقين أو طلب التوضيح، بدلاً من تقديم معلومات قد تكون غير صحيحة بثقة.
على سبيل المثال ، تقييم SimpleQA في بطاقة نظام GPT5.
!
فيما يتعلق بالدقة، فإن نموذج OpenAI o4-mini الأقدم قليلاً يظهر أداءً أفضل قليلاً. ومع ذلك، فإن معدل الخطأ (أي معدل الوهم) مرتفع بشكل ملحوظ. يمكن أن يؤدي التخمين الاستراتيجي في حالات عدم اليقين إلى تحسين الدقة، ولكنه يزيد أيضًا من الأخطاء والأوهام.
عند حساب متوسط نتائج عشرات التقييمات، تقوم معظم اختبارات الأداء باستبعاد مؤشرات الدقة، لكن هذا يؤدي إلى ثنائية خاطئة بين الصواب والخطأ.
!
في تقييمات بسيطة مثل SimpleQA، تصل دقة بعض النماذج إلى ما يقرب من 100%، مما يلغي الوهم. ومع ذلك، في التقييمات الأكثر تحديًا والاستخدام الفعلي، تظل الدقة أقل من 100% لأن إجابات بعض الأسئلة لا يمكن تحديدها لأسباب متنوعة (مثل عدم توفر المعلومات، أو محدودية القدرة الفكرية للنماذج الصغيرة، أو الغموض الذي يحتاج إلى توضيح).
ومع ذلك، لا تزال مؤشرات التقييم التي تعتمد فقط على الدقة تهيمن على قوائم التصنيف وبطاقات النماذج، مما يشجع المطورين على بناء نماذج قادرة على التخمين بدلاً من التراجع.
لذلك، حتى لو أصبحت النماذج أكثر تقدمًا، فإنها لا تزال تنتج أوهامًا. أحد الأسباب هو أنها تميل إلى إعطاء إجابات خاطئة بثقة، بدلاً من الاعتراف بعدم اليقين.
طرق تقييم أفضل
في هذا السياق، أشارت OpenAI إلى حل بسيط: أن العقوبة على الأخطاء السرية (confidential error) أكبر من العقوبة على عدم اليقين، ومنح نقاط جزئية للسلوك الذي يعبر عن عدم اليقين بشكل مناسب.
هذه الفكرة ليست جديدة. لقد استخدمت بعض الاختبارات القياسية منذ فترة طويلة أساليب لتسجيل الدرجات السلبية على الإجابات الخاطئة أو منح نقاط جزئية للأسئلة التي تُترك فارغة لمنع التخمين الأعمى. كما استكشفت بعض فرق البحث طرق التقييم التي تأخذ في الاعتبار عدم اليقين والتعديل.
لكن OpenAI تشير إلى أن مجرد إضافة بعض اختبارات إدراك عدم اليقين الجديدة ليس كافيًا. يجب تحديث طرق التقييم المعتمدة على الدقة المستخدمة على نطاق واسع، بحيث يمكن لدرجاتها منع التخمين.
إذا كانت المعايير الرئيسية للتقييم لا تزال تكافئ تخمينات النموذج المحظوظة، فسوف يستمر النموذج في تعلم التخمين. يمكن أن يؤدي تعديل معايير التقييم إلى توسيع نطاق اعتماد تقنيات الوهم، بما في ذلك التقنيات المطورة حديثًا وتلك التي تم بحثها سابقًا.
كيف تنشأ الأوهام من التنبؤ بالكلمة التالية
لقد تم مناقشة لماذا من الصعب التخلص من الأوهام، ولكن من أين تأتي هذه الأخطاء الواقعية المحددة للغاية؟
في النهاية، نادراً ما تظهر النماذج الكبيرة المدربة مسبقاً أنواعاً أخرى من الأخطاء، مثل أخطاء الإملاء وعدم تطابق الأقواس.
تقول OpenAI إن الفرق لا بد أن يكون في الأنماط الموجودة في البيانات.
تتعلم نماذج اللغة أولاً من خلال التدريب المسبق، وهي عملية تتنبأ بالكلمة التالية في نص ضخم.
على عكس مشاكل التعلم الآلي التقليدية، لا تحتوي كل عبارة على علامات "صحيح / خاطئ". يرى النموذج فقط أمثلة إيجابية للغة السلسة، ويجب أن يقترب من التوزيع الكلي.
عندما لا توجد أمثلة تم وضع علامة عليها على أنها غير صالحة، سيكون من الأصعب التمييز بين العبارات الصحيحة والعبارات غير الصحيحة. ولكن حتى مع وجود علامات، فإن بعض الأخطاء لا مفر منها.
لفهم السبب، يمكن اعتبار تشبيه أبسط. في التعرف على الصور، إذا تم تصنيف ملايين الصور للقطط والكلاب على أنها "قط" أو "كلب"، يمكن للخوارزمية أن تتعلم تصنيفها بدقة. لكن تخيل أنه تم تصنيف كل صورة حيوانات أليفة بتاريخ ميلادها. نظرًا لأن تاريخ الميلاد عشوائي بطبيعته، بغض النظر عن مدى تقدم الخوارزمية، ستظل هذه المهمة تؤدي إلى أخطاء.
تنطبق نفس المبادئ على التدريب المسبق. تتبع التهجئة والأقواس نمطًا متسقًا، وبالتالي ستختفي هذه الأخطاء مع زيادة الحجم. لكن الحقائق النادرة العشوائية، مثل عيد ميلاد الحيوانات الأليفة، لا يمكن التنبؤ بها فقط بناءً على الأنماط، مما يؤدي إلى الهلوسة.
تفسير تحليلات OpenAI يوضح أنواع الوهم التي يمكن أن تنتج عن توقع الكلمة التالية. من الناحية المثالية، يجب أن تكون المراحل اللاحقة بعد التدريب المسبق قادرة على القضاء على هذه الأوهام، ولكن بسبب الأسباب الموضحة في القسم السابق، لم يتحقق ذلك بالكامل.
ملخص
قالت OpenAI: "نأمل أن يوفر منظور الإحصاء في هذه المقالة توضيحًا لطبيعة الهلوسة، وأن يدحض بعض المفاهيم الخاطئة الشائعة" :
يدعي البعض: يمكن القضاء على الأوهام من خلال زيادة الدقة، لأن النموذج الذي يحظى بدقة 100% لن ينتج أبداً أوهاماً.
اكتشف: دقة النموذج لن تصل أبداً إلى 100%، لأنه بغض النظر عن حجم النموذج أو قدرات البحث والاستدلال، فإن بعض القضايا في العالم الحقيقي هي بطبيعتها غير قابلة للإجابة.
يدعي البعض: الهلوسة لا مفر منها.
اكتشاف: الهلوسة ليست حتمية، لأن نماذج اللغة يمكن أن تتخلى عن الإجابة في حالة عدم اليقين.
يدعي البعض أن تجنب الأوهام يتطلب مستوى معينًا من الذكاء، وهو ما لا يمكن تحقيقه إلا من خلال النماذج الكبيرة.
اكتشاف: النماذج الصغيرة أسهل في فهم حدودها الخاصة. على سبيل المثال، عندما يُطلب منها الإجابة على أسئلة باللغة الماورية، يمكن لنموذج صغير لا يعرف اللغة الماورية أن يجيب مباشرة "لا أعلم"، بينما يجب على نموذج يعرف بعض اللغة الماورية أن يحدد مستوى ثقته. كما تم مناقشته في الورقة، فإن مقدار الحساب المطلوب لـ "المعايرة" أقل بكثير من الحفاظ على الدقة.
يدعي البعض: أن الهلوسة هي عيب غامض في نماذج اللغة الحديثة.
اكتشاف: يمكننا فهم آلية الإحصاء التي تؤدي إلى ظهور الهلوسة والحصول على المكافآت في التقييم.
يدعي البعض: لقياس الوهم، نحتاج فقط إلى تقييم وهم جيد.
اكتشف: نشر بعض الباحثين تقارير حول تقييم الهلوسة. ومع ذلك، فإن تقييم الهلوسة الجيد له تأثير ضئيل تقريبًا مقارنةً بمئات التقييمات التقليدية القائمة على الدقة، والتي تعاقب على التواضع وتكافئ التخمين. بدلاً من ذلك، يجب إعادة تصميم جميع المؤشرات الرئيسية للتقييم لمكافأة التعبير عن عدم اليقين.
أشارت OpenAI إلى: "إن معدل الوهم في نموذجنا الأخير أقل، وسنواصل العمل على خفض معدل الأخطاء في مخرجات نماذج اللغة بشكل أكبر."
من المثير للاهتمام أنه وفقًا لتقرير TechCrunch ، تقوم OpenAI بإعادة هيكلة فريق سلوك النموذج (Model Behavior) الخاص بها، والذي هو فريق من الباحثين صغير الحجم لكنه مؤثر للغاية، حيث يحدد كيفية تفاعل نماذج الذكاء الاصطناعي الخاصة بالشركة مع المستخدمين. الآن، سيرفع هذا الفريق تقاريره إلى مدير التدريب المتأخر في OpenAI، ماكس شوارزر.
وستقوم المسؤولة المؤسسة للفريق جوان جانغ بإطلاق مشروع جديد في الشركة، يسمى oai Labs. وفقًا لتغريدتها، "هذا فريق موجه نحو البحث، يركز على اختراع وتصميم نماذج أولية جديدة للتفاعل بين الناس و AI."
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
OpenAI نادراً ما تنشر ورقة: لقد وجدنا الجاني وراء أوهام الذكاء الاصطناعي
ما هي أكثر الأخطاء شهرة في الذكاء الاصطناعي؟ ليست انهيار الأكواد، بل هي "الهلوسة" - حيث يقوم النموذج بابتكار الحقائق بثقة، مما يجعل من الصعب عليك التمييز بين الحقيقة والخيال. هذا التحدي الجذري هو العقبة الرئيسية التي تعيق ثقتنا الكاملة في الذكاء الاصطناعي.
تولد النماذج الكبيرة أوهامًا، وقد أصبح هذا تقريبًا من المسلمات، مما يجعل كل شخص يستخدم النماذج الكبيرة بجدية يتوخى الحذر. كما أشارت OpenAI: "يمكن لـ ChatGPT أيضًا أن ينتج أوهامًا. أوهام GPT-5 واضحة بشكل أقل، خاصة عند تنفيذ الاستدلال، لكن الأوهام لا تزال تحدث. تظل الأوهام تحديًا أساسيًا تواجهه جميع نماذج اللغة الكبيرة."
على الرغم من أن المجتمع الأكاديمي قد اقترح الآن مجموعة متنوعة من الطرق لتقليل الوهم في النماذج، لا تزال هناك حاجة إلى علاج فعال تمامًا "للقضاء" على الوهم في النماذج.
إذن، لماذا تظهر الأشكال الكبيرة من النماذج الوهمية؟ اليوم، نشرت OpenAI ورقة نادرة تكشف بشكل منهجي عن جذور الوهم.
أولاً، تعريف الهلوسة. التعريف البسيط الذي تقدمه OpenAI هو: «حالة يقوم فيها النموذج بإنشاء إجابات غير صحيحة بثقة.»
أما بالنسبة للأسباب، فيمكن القول ببساطة: إن برامج التدريب والتقييم القياسية تميل إلى مكافأة التخمينات، بدلاً من منح المكافآت للنموذج عندما يكون شجاعًا في الاعتراف بعدم اليقين.
!
دعونا نلقي نظرة فاحصة على ما اكتشفته OpenAI.
ما هو الوهم؟
الهلاوس هي بيانات تبدو معقولة ولكنها خاطئة تم إنشاؤها بواسطة نماذج اللغة.
حتى المشكلات التي تبدو بسيطة قد تظهر بطرق غير متوقعة. قدمت OpenAI مثالًا، عندما تم سؤال روبوتات دردشة مستخدمة على نطاق واسع عن عنوان أطروحة الدكتوراه لآدم تاومان كالاي (المؤلف الأول للورقة)، قدمت إجابات مختلفة بثقة، لكن لم يكن أي منها صحيحًا.
!
عندما سُئل عن عيد ميلاده، أعطى ثلاثة تواريخ مختلفة، وكلها كانت خاطئة.
!
التعلم من أجل الاختبار
أفادت OpenAI أن الهلوسة تستمر بسبب أن أساليب التقييم الحالية وضعت حوافز خاطئة. على الرغم من أن التقييم نفسه لا يؤدي مباشرة إلى الهلوسة، إلا أن الطريقة التي يتم بها تقييم أداء النماذج تشجع النماذج على التخمين بدلاً من مواجهة عدم اليقين بصدق.
يمكنك أن تتخيلها كاختبار اختيار من متعدد. إذا كنت لا تعرف الإجابة، ولكنك تخمن عشوائيًا، فقد تكون محظوظًا وتخمن بشكل صحيح. تركها فارغة يعني بالتأكيد الحصول على صفر. وبالمثل، عندما يتم تقييم النماذج فقط بناءً على الدقة (أي النسبة المئوية للإجابات الصحيحة تمامًا)، فإنها تُشجع على التخمين، بدلاً من الاعتراف بـ "لا أعرف".
خذ مثالاً آخر، افترض أن نموذج لغة سُئل عن عيد ميلاد شخص ما، لكنه لا يعرف. إذا خمّن "10 سبتمبر"، فإن لديه فرصة 1/365 ليتوقع بشكل صحيح. بينما قول "لا أعرف" سيؤدي بالتأكيد إلى الحصول على صفر نقاط. في الآلاف من أسئلة الاختبار، فإن نموذج التخمين في النهاية يتفوق في الأداء على لوحة النتائج مقارنة بالنموذج الحذر الذي يعترف بعدم اليقين.
بالنسبة للأسئلة التي تحتوي على "إجابة صحيحة" واحدة فقط، يمكن النظر في ثلاثة أنواع من الإجابات: الإجابة الدقيقة، الإجابة الخاطئة، وإجابة التنازل التي لا يرغب النموذج في المخاطرة بالتخمين.
قالت OpenAI إن إجابات التنازل هي جزء من مؤشر التواضع، والتواضع هو أحد القيم الأساسية لـ OpenAI.
تقوم معظم مؤشرات الدرجات بترتيب النماذج حسب الدقة، ولكن الإجابات الخاطئة أسوأ من الإجابات المتروكة. تشير مواصفات نموذج OpenAI إلى أنه من الأفضل الإشارة إلى عدم اليقين أو طلب التوضيح، بدلاً من تقديم معلومات قد تكون غير صحيحة بثقة.
على سبيل المثال ، تقييم SimpleQA في بطاقة نظام GPT5.
!
فيما يتعلق بالدقة، فإن نموذج OpenAI o4-mini الأقدم قليلاً يظهر أداءً أفضل قليلاً. ومع ذلك، فإن معدل الخطأ (أي معدل الوهم) مرتفع بشكل ملحوظ. يمكن أن يؤدي التخمين الاستراتيجي في حالات عدم اليقين إلى تحسين الدقة، ولكنه يزيد أيضًا من الأخطاء والأوهام.
عند حساب متوسط نتائج عشرات التقييمات، تقوم معظم اختبارات الأداء باستبعاد مؤشرات الدقة، لكن هذا يؤدي إلى ثنائية خاطئة بين الصواب والخطأ.
!
في تقييمات بسيطة مثل SimpleQA، تصل دقة بعض النماذج إلى ما يقرب من 100%، مما يلغي الوهم. ومع ذلك، في التقييمات الأكثر تحديًا والاستخدام الفعلي، تظل الدقة أقل من 100% لأن إجابات بعض الأسئلة لا يمكن تحديدها لأسباب متنوعة (مثل عدم توفر المعلومات، أو محدودية القدرة الفكرية للنماذج الصغيرة، أو الغموض الذي يحتاج إلى توضيح).
ومع ذلك، لا تزال مؤشرات التقييم التي تعتمد فقط على الدقة تهيمن على قوائم التصنيف وبطاقات النماذج، مما يشجع المطورين على بناء نماذج قادرة على التخمين بدلاً من التراجع.
لذلك، حتى لو أصبحت النماذج أكثر تقدمًا، فإنها لا تزال تنتج أوهامًا. أحد الأسباب هو أنها تميل إلى إعطاء إجابات خاطئة بثقة، بدلاً من الاعتراف بعدم اليقين.
طرق تقييم أفضل
في هذا السياق، أشارت OpenAI إلى حل بسيط: أن العقوبة على الأخطاء السرية (confidential error) أكبر من العقوبة على عدم اليقين، ومنح نقاط جزئية للسلوك الذي يعبر عن عدم اليقين بشكل مناسب.
هذه الفكرة ليست جديدة. لقد استخدمت بعض الاختبارات القياسية منذ فترة طويلة أساليب لتسجيل الدرجات السلبية على الإجابات الخاطئة أو منح نقاط جزئية للأسئلة التي تُترك فارغة لمنع التخمين الأعمى. كما استكشفت بعض فرق البحث طرق التقييم التي تأخذ في الاعتبار عدم اليقين والتعديل.
لكن OpenAI تشير إلى أن مجرد إضافة بعض اختبارات إدراك عدم اليقين الجديدة ليس كافيًا. يجب تحديث طرق التقييم المعتمدة على الدقة المستخدمة على نطاق واسع، بحيث يمكن لدرجاتها منع التخمين.
إذا كانت المعايير الرئيسية للتقييم لا تزال تكافئ تخمينات النموذج المحظوظة، فسوف يستمر النموذج في تعلم التخمين. يمكن أن يؤدي تعديل معايير التقييم إلى توسيع نطاق اعتماد تقنيات الوهم، بما في ذلك التقنيات المطورة حديثًا وتلك التي تم بحثها سابقًا.
كيف تنشأ الأوهام من التنبؤ بالكلمة التالية
لقد تم مناقشة لماذا من الصعب التخلص من الأوهام، ولكن من أين تأتي هذه الأخطاء الواقعية المحددة للغاية؟
في النهاية، نادراً ما تظهر النماذج الكبيرة المدربة مسبقاً أنواعاً أخرى من الأخطاء، مثل أخطاء الإملاء وعدم تطابق الأقواس.
تقول OpenAI إن الفرق لا بد أن يكون في الأنماط الموجودة في البيانات.
تتعلم نماذج اللغة أولاً من خلال التدريب المسبق، وهي عملية تتنبأ بالكلمة التالية في نص ضخم.
على عكس مشاكل التعلم الآلي التقليدية، لا تحتوي كل عبارة على علامات "صحيح / خاطئ". يرى النموذج فقط أمثلة إيجابية للغة السلسة، ويجب أن يقترب من التوزيع الكلي.
عندما لا توجد أمثلة تم وضع علامة عليها على أنها غير صالحة، سيكون من الأصعب التمييز بين العبارات الصحيحة والعبارات غير الصحيحة. ولكن حتى مع وجود علامات، فإن بعض الأخطاء لا مفر منها.
لفهم السبب، يمكن اعتبار تشبيه أبسط. في التعرف على الصور، إذا تم تصنيف ملايين الصور للقطط والكلاب على أنها "قط" أو "كلب"، يمكن للخوارزمية أن تتعلم تصنيفها بدقة. لكن تخيل أنه تم تصنيف كل صورة حيوانات أليفة بتاريخ ميلادها. نظرًا لأن تاريخ الميلاد عشوائي بطبيعته، بغض النظر عن مدى تقدم الخوارزمية، ستظل هذه المهمة تؤدي إلى أخطاء.
تنطبق نفس المبادئ على التدريب المسبق. تتبع التهجئة والأقواس نمطًا متسقًا، وبالتالي ستختفي هذه الأخطاء مع زيادة الحجم. لكن الحقائق النادرة العشوائية، مثل عيد ميلاد الحيوانات الأليفة، لا يمكن التنبؤ بها فقط بناءً على الأنماط، مما يؤدي إلى الهلوسة.
تفسير تحليلات OpenAI يوضح أنواع الوهم التي يمكن أن تنتج عن توقع الكلمة التالية. من الناحية المثالية، يجب أن تكون المراحل اللاحقة بعد التدريب المسبق قادرة على القضاء على هذه الأوهام، ولكن بسبب الأسباب الموضحة في القسم السابق، لم يتحقق ذلك بالكامل.
ملخص
قالت OpenAI: "نأمل أن يوفر منظور الإحصاء في هذه المقالة توضيحًا لطبيعة الهلوسة، وأن يدحض بعض المفاهيم الخاطئة الشائعة" :
يدعي البعض: يمكن القضاء على الأوهام من خلال زيادة الدقة، لأن النموذج الذي يحظى بدقة 100% لن ينتج أبداً أوهاماً.
اكتشف: دقة النموذج لن تصل أبداً إلى 100%، لأنه بغض النظر عن حجم النموذج أو قدرات البحث والاستدلال، فإن بعض القضايا في العالم الحقيقي هي بطبيعتها غير قابلة للإجابة.
يدعي البعض: الهلوسة لا مفر منها.
اكتشاف: الهلوسة ليست حتمية، لأن نماذج اللغة يمكن أن تتخلى عن الإجابة في حالة عدم اليقين.
يدعي البعض أن تجنب الأوهام يتطلب مستوى معينًا من الذكاء، وهو ما لا يمكن تحقيقه إلا من خلال النماذج الكبيرة.
اكتشاف: النماذج الصغيرة أسهل في فهم حدودها الخاصة. على سبيل المثال، عندما يُطلب منها الإجابة على أسئلة باللغة الماورية، يمكن لنموذج صغير لا يعرف اللغة الماورية أن يجيب مباشرة "لا أعلم"، بينما يجب على نموذج يعرف بعض اللغة الماورية أن يحدد مستوى ثقته. كما تم مناقشته في الورقة، فإن مقدار الحساب المطلوب لـ "المعايرة" أقل بكثير من الحفاظ على الدقة.
يدعي البعض: أن الهلوسة هي عيب غامض في نماذج اللغة الحديثة.
اكتشاف: يمكننا فهم آلية الإحصاء التي تؤدي إلى ظهور الهلوسة والحصول على المكافآت في التقييم.
يدعي البعض: لقياس الوهم، نحتاج فقط إلى تقييم وهم جيد.
اكتشف: نشر بعض الباحثين تقارير حول تقييم الهلوسة. ومع ذلك، فإن تقييم الهلوسة الجيد له تأثير ضئيل تقريبًا مقارنةً بمئات التقييمات التقليدية القائمة على الدقة، والتي تعاقب على التواضع وتكافئ التخمين. بدلاً من ذلك، يجب إعادة تصميم جميع المؤشرات الرئيسية للتقييم لمكافأة التعبير عن عدم اليقين.
أشارت OpenAI إلى: "إن معدل الوهم في نموذجنا الأخير أقل، وسنواصل العمل على خفض معدل الأخطاء في مخرجات نماذج اللغة بشكل أكبر."
من المثير للاهتمام أنه وفقًا لتقرير TechCrunch ، تقوم OpenAI بإعادة هيكلة فريق سلوك النموذج (Model Behavior) الخاص بها، والذي هو فريق من الباحثين صغير الحجم لكنه مؤثر للغاية، حيث يحدد كيفية تفاعل نماذج الذكاء الاصطناعي الخاصة بالشركة مع المستخدمين. الآن، سيرفع هذا الفريق تقاريره إلى مدير التدريب المتأخر في OpenAI، ماكس شوارزر.
وستقوم المسؤولة المؤسسة للفريق جوان جانغ بإطلاق مشروع جديد في الشركة، يسمى oai Labs. وفقًا لتغريدتها، "هذا فريق موجه نحو البحث، يركز على اختراع وتصميم نماذج أولية جديدة للتفاعل بين الناس و AI."
!