قدمت شركة OpenAI نظامًا جديدًا يُسمى EVMbench، مصممًا لقياس مدى قدرة وكلاء الذكاء الاصطناعي على اكتشاف وإصلاح الثغرات الأمنية في العقود الذكية للعملات الرقمية.
ملخص
قدمت OpenAI إطار عمل جديد يُسمى EVMbench لقياس مدى قدرة الذكاء الاصطناعي على اكتشاف، إصلاح، واستغلال ثغرات العقود الذكية.
تم تطويره بالتعاون مع Paradigm، ويعتمد على بيانات تدقيق حقيقية ويركز على سيناريوهات أمنية عملية وعالية المخاطر.
تظهر النتائج المبكرة تقدمًا قويًا في مهام الاستغلال، بينما لا تزال مهام الاكتشاف والإصلاح تحديًا.
أعلنت الشركة في 18 فبراير أنها طورت EVMbench بالشراكة مع Paradigm. يركز إطار العمل على العقود المبنية لنظام Ethereum Virtual Machine ويهدف إلى اختبار أداء أنظمة الذكاء الاصطناعي في بيئات مالية حقيقية.
قالت OpenAI إن العقود الذكية تؤمن حاليًا أكثر من 100 مليار دولار من الأصول المشفرة مفتوحة المصدر، مما يجعل اختبار الأمان أكثر أهمية مع تزايد قدرات أدوات الذكاء الاصطناعي.
اختبار كيفية تعامل الذكاء الاصطناعي مع المخاطر الأمنية الحقيقية
يقيم EVMbench وكيل الذكاء الاصطناعي عبر ثلاثة مهام رئيسية: اكتشاف الثغرات، إصلاح الشفرات المعيبة، وتنفيذ هجمات محاكاة. تم بناء النظام باستخدام 120 مشكلة عالية المخاطر مستمدة من 40 تدقيق أمني سابق، العديد منها من مسابقات التدقيق العامة.
تم إضافة سيناريوهات إضافية من مراجعات شبكة Tempo، وهي شبكة تركز على المدفوعات ومصممة لاستخدام العملات المستقرة. أُضيفت هذه الحالات لتعكس كيفية استخدام العقود الذكية في التطبيقات المالية.
لبناء بيئة الاختبار، قامت OpenAI بتعديل نصوص استغلال موجودة وابتكار أخرى عند الحاجة. تُجرى جميع اختبارات الاستغلال في أنظمة معزولة بدلاً من الشبكات الحية، وتشمل الثغرات التي تم الكشف عنها سابقًا فقط.
في وضع الاكتشاف، يراجع الوكيل رمز العقد ويحاول تحديد الثغرات الأمنية المعروفة. في وضع الإصلاح، يجب عليه إصلاح تلك الثغرات دون إتلاف البرنامج. في وضع الاستغلال، يحاول الوكيل سحب الأموال من العقود الضعيفة في بيئة محكمة.
النتائج المبكرة وتأثير الصناعة
قالت OpenAI إنه تم تطوير إطار اختبار مخصص لضمان إمكانية إعادة إنتاج النتائج والتحقق منها.
اختبرت الشركة عدة نماذج متقدمة باستخدام EVMbench. في وضع الاستغلال، حقق GPT-5.3-Codex درجة 72.2%، مقارنة بـ 31.9% لـ GPT-5، الذي صدر قبل ستة أشهر. كانت درجات الاكتشاف والإصلاح أقل، مما يدل على أن العديد من الثغرات لا تزال صعبة على أنظمة الذكاء الاصطناعي التعامل معها.
لاحظ الباحثون أن الوكلاء أدوا بشكل أفضل عندما كانت الأهداف واضحة، مثل سحب الأموال. وانخفض الأداء عندما تطلبت المهام تحليلًا أعمق، مثل مراجعة قواعد بيانات كبيرة أو إصلاح أخطاء دقيقة.
اعترفت OpenAI بأن EVMbench لا يعكس تمامًا الظروف الواقعية. تخضع العديد من المشاريع الكبرى للعملات الرقمية لمراجعات أكثر شمولاً من تلك المدرجة في مجموعة البيانات. كما أن بعض الهجمات التي تعتمد على التوقيت أو متعددة السلاسل خارج نطاق النظام.
قالت الشركة إن الهدف من إطار العمل هو دعم الاستخدام الدفاعي للذكاء الاصطناعي في أمن المعلومات. مع تزايد قوة أدوات الذكاء الاصطناعي، يمكن أن يستخدمها كل من المهاجمين والمدققين. يُنظر إلى قياس قدراتها كوسيلة لتقليل المخاطر وتشجيع الاستخدام المسؤول.
بالإضافة إلى الإصدار، أعلنت OpenAI عن توسيع برامج الأمان واستثمار 10 ملايين دولار في أرصدة API لدعم المصادر المفتوحة وحماية البنية التحتية. تم جعل جميع أدوات وبيانات EVMbench متاحة للجمهور لدعم المزيد من الأبحاث.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تطلق OpenAI نظام تقييم أمان العقود الذكية
قدمت شركة OpenAI نظامًا جديدًا يُسمى EVMbench، مصممًا لقياس مدى قدرة وكلاء الذكاء الاصطناعي على اكتشاف وإصلاح الثغرات الأمنية في العقود الذكية للعملات الرقمية.
ملخص
أعلنت الشركة في 18 فبراير أنها طورت EVMbench بالشراكة مع Paradigm. يركز إطار العمل على العقود المبنية لنظام Ethereum Virtual Machine ويهدف إلى اختبار أداء أنظمة الذكاء الاصطناعي في بيئات مالية حقيقية.
قالت OpenAI إن العقود الذكية تؤمن حاليًا أكثر من 100 مليار دولار من الأصول المشفرة مفتوحة المصدر، مما يجعل اختبار الأمان أكثر أهمية مع تزايد قدرات أدوات الذكاء الاصطناعي.
اختبار كيفية تعامل الذكاء الاصطناعي مع المخاطر الأمنية الحقيقية
يقيم EVMbench وكيل الذكاء الاصطناعي عبر ثلاثة مهام رئيسية: اكتشاف الثغرات، إصلاح الشفرات المعيبة، وتنفيذ هجمات محاكاة. تم بناء النظام باستخدام 120 مشكلة عالية المخاطر مستمدة من 40 تدقيق أمني سابق، العديد منها من مسابقات التدقيق العامة.
تم إضافة سيناريوهات إضافية من مراجعات شبكة Tempo، وهي شبكة تركز على المدفوعات ومصممة لاستخدام العملات المستقرة. أُضيفت هذه الحالات لتعكس كيفية استخدام العقود الذكية في التطبيقات المالية.
لبناء بيئة الاختبار، قامت OpenAI بتعديل نصوص استغلال موجودة وابتكار أخرى عند الحاجة. تُجرى جميع اختبارات الاستغلال في أنظمة معزولة بدلاً من الشبكات الحية، وتشمل الثغرات التي تم الكشف عنها سابقًا فقط.
في وضع الاكتشاف، يراجع الوكيل رمز العقد ويحاول تحديد الثغرات الأمنية المعروفة. في وضع الإصلاح، يجب عليه إصلاح تلك الثغرات دون إتلاف البرنامج. في وضع الاستغلال، يحاول الوكيل سحب الأموال من العقود الضعيفة في بيئة محكمة.
النتائج المبكرة وتأثير الصناعة
قالت OpenAI إنه تم تطوير إطار اختبار مخصص لضمان إمكانية إعادة إنتاج النتائج والتحقق منها.
اختبرت الشركة عدة نماذج متقدمة باستخدام EVMbench. في وضع الاستغلال، حقق GPT-5.3-Codex درجة 72.2%، مقارنة بـ 31.9% لـ GPT-5، الذي صدر قبل ستة أشهر. كانت درجات الاكتشاف والإصلاح أقل، مما يدل على أن العديد من الثغرات لا تزال صعبة على أنظمة الذكاء الاصطناعي التعامل معها.
لاحظ الباحثون أن الوكلاء أدوا بشكل أفضل عندما كانت الأهداف واضحة، مثل سحب الأموال. وانخفض الأداء عندما تطلبت المهام تحليلًا أعمق، مثل مراجعة قواعد بيانات كبيرة أو إصلاح أخطاء دقيقة.
اعترفت OpenAI بأن EVMbench لا يعكس تمامًا الظروف الواقعية. تخضع العديد من المشاريع الكبرى للعملات الرقمية لمراجعات أكثر شمولاً من تلك المدرجة في مجموعة البيانات. كما أن بعض الهجمات التي تعتمد على التوقيت أو متعددة السلاسل خارج نطاق النظام.
قالت الشركة إن الهدف من إطار العمل هو دعم الاستخدام الدفاعي للذكاء الاصطناعي في أمن المعلومات. مع تزايد قوة أدوات الذكاء الاصطناعي، يمكن أن يستخدمها كل من المهاجمين والمدققين. يُنظر إلى قياس قدراتها كوسيلة لتقليل المخاطر وتشجيع الاستخدام المسؤول.
بالإضافة إلى الإصدار، أعلنت OpenAI عن توسيع برامج الأمان واستثمار 10 ملايين دولار في أرصدة API لدعم المصادر المفتوحة وحماية البنية التحتية. تم جعل جميع أدوات وبيانات EVMbench متاحة للجمهور لدعم المزيد من الأبحاث.