OpenAI ra mắt hệ thống đánh giá bảo mật hợp đồng thông minh

OpenAI đã giới thiệu hệ thống mới gọi là EVMbench, được thiết kế để đo lường khả năng của các tác nhân trí tuệ nhân tạo trong việc phát hiện và sửa lỗi bảo mật trong các hợp đồng thông minh tiền điện tử.

Tóm tắt

  • OpenAI đã giới thiệu EVMbench, một khung đánh giá mới nhằm đo lường khả năng của các tác nhân AI trong việc phát hiện, sửa chữa và khai thác lỗ hổng trong hợp đồng thông minh.
  • Được phát triển cùng với Paradigm, tiêu chuẩn này dựa trên dữ liệu kiểm toán thực tế và tập trung vào các tình huống bảo mật thực tế, có rủi ro cao.
  • Kết quả ban đầu cho thấy tiến bộ rõ rệt trong các nhiệm vụ khai thác, trong khi việc phát hiện và vá lỗi vẫn còn nhiều thử thách.

Công ty đã công bố vào ngày 18 tháng 2 rằng họ đã phát triển EVMbench hợp tác cùng Paradigm. Tiêu chuẩn này tập trung vào các hợp đồng xây dựng cho Ethereum Virtual Machine và nhằm kiểm tra hiệu suất của các hệ thống AI trong các môi trường tài chính thực tế.

OpenAI cho biết các hợp đồng thông minh hiện đang bảo vệ hơn 100 tỷ USD tài sản tiền điện tử mã nguồn mở, khiến việc kiểm tra bảo mật ngày càng trở nên quan trọng khi các công cụ AI trở nên mạnh mẽ hơn.

Kiểm tra khả năng xử lý rủi ro bảo mật thực tế của AI

EVMbench đánh giá các tác nhân AI qua ba nhiệm vụ chính: phát hiện lỗ hổng, sửa mã lỗi và thực hiện các cuộc tấn công mô phỏng. Hệ thống này được xây dựng dựa trên 120 vấn đề rủi ro cao lấy từ 40 cuộc kiểm toán bảo mật trước đây, nhiều trong số đó đến từ các cuộc thi kiểm toán công khai.

Các tình huống bổ sung được lấy từ các đánh giá về blockchain Tempo, một mạng lưới tập trung vào thanh toán, được thiết kế cho việc sử dụng stablecoin. Những trường hợp này được thêm vào để phản ánh cách các hợp đồng thông minh được sử dụng trong các ứng dụng tài chính.

Để xây dựng môi trường thử nghiệm, OpenAI đã điều chỉnh các script khai thác hiện có và tạo ra các script mới khi cần thiết. Tất cả các thử nghiệm khai thác đều chạy trong các hệ thống cô lập thay vì trên mạng lưới trực tiếp, và chỉ bao gồm các lỗ hổng đã được tiết lộ trước đó.

Trong chế độ phát hiện, các tác nhân xem xét mã hợp đồng và cố gắng xác định các lỗi bảo mật đã biết. Trong chế độ vá lỗi, chúng phải sửa các lỗi đó mà không làm hỏng phần mềm. Trong chế độ khai thác, các tác nhân cố gắng rút tiền từ các hợp đồng dễ bị tổn thương trong một môi trường kiểm soát.

Kết quả ban đầu và tác động đến ngành công nghiệp

OpenAI cho biết đã phát triển một khung kiểm thử tùy chỉnh để đảm bảo kết quả có thể được tái tạo và xác minh.

Công ty đã thử nghiệm nhiều mô hình tiên tiến sử dụng EVMbench. Trong chế độ khai thác, GPT-5.3-Codex đạt điểm 72,2%, so với 31,9% của GPT-5, ra mắt sáu tháng trước đó. Các điểm số phát hiện và vá lỗi thấp hơn, cho thấy nhiều lỗ hổng vẫn còn khó để các hệ thống AI xử lý.

Các nhà nghiên cứu nhận thấy rằng các tác nhân hoạt động tốt nhất khi mục tiêu rõ ràng, chẳng hạn như rút tiền. Hiệu suất giảm khi nhiệm vụ yêu cầu phân tích sâu hơn, như xem xét các mã lớn hoặc sửa các lỗi tinh vi.

OpenAI thừa nhận rằng EVMbench chưa phản ánh đầy đủ các điều kiện thực tế. Nhiều dự án crypto lớn có các cuộc đánh giá kỹ lưỡng hơn so với dữ liệu trong bộ dữ liệu này. Một số cuộc tấn công dựa trên thời gian và đa chuỗi cũng nằm ngoài phạm vi của hệ thống.

Công ty cho biết tiêu chuẩn này nhằm hỗ trợ việc sử dụng AI để phòng thủ trong an ninh mạng. Khi các công cụ AI trở nên mạnh mẽ hơn, chúng có thể được sử dụng bởi cả kẻ tấn công lẫn các nhà kiểm toán. Đo lường khả năng của chúng được xem là cách giảm thiểu rủi ro và thúc đẩy việc triển khai có trách nhiệm.

Cùng với việc ra mắt, OpenAI cho biết họ đang mở rộng các chương trình an ninh và đầu tư 10 triệu USD vào tín dụng API để hỗ trợ mã nguồn mở và bảo vệ hạ tầng. Tất cả các công cụ và bộ dữ liệu của EVMbench đã được công khai để thúc đẩy nghiên cứu thêm.

ETH-1,4%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.44KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.44KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.44KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.43KNgười nắm giữ:0
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Ghim