Tin tức bảo mật: Fable 5 công bố biện pháp bảo vệ AI nghiêm ngặt

Anthropic đã công bố tài liệu kỹ thuật chi tiết về các biện pháp bảo mật mạng bảo vệ Claude Fable 5, sau khi mô hình này được triển khai toàn cầu. Tin tức bảo mật này bao gồm cả hệ thống bộ phân loại an toàn của AI và một khung dự thảo để đánh giá mức độ nghiêm trọng của jailbreak, được phát triển với sự hợp tác của Glasswing.

Nội dung

Hệ thống Bộ Phân loại An toàn của Fable 5

Phân biệt Khám phá Lỗ hổng

Khung Đánh giá Mức độ Nghiêm trọng của Jailbreak (CJS)

Bốn Trục Đánh giá

Ánh xạ Điểm số tới Mức độ Nghiêm trọng

Phản hồi và Chương trình Lỗi Thưởng

Mục tiêu Thiết lập Từ vựng Chung

Loại trừ khỏi Khung CJS

Hệ thống Bộ Phân loại An toàn của Fable 5

Bộ phân loại an toàn của Fable 5 phân loại các yêu cầu bảo mật mạng vào bốn danh mục thay vì chặn mọi hoạt động liên quan đến an ninh mạng. Cách tiếp cận này thừa nhận bản chất hai mặt của hầu hết các khả năng mạng.

Phân biệt Khám phá Lỗ hổng

Anthropic phân biệt giữa việc khám phá lỗ hổng mà các mô hình khác đã có thể thực hiện được (được phép) và các phát hiện mới, có tác động lớn mà các công cụ cạnh tranh không thể tiếp cận (bị chặn). Điều này phù hợp với hướng dẫn của NSA, theo đó công bố có trách nhiệm thường phục vụ bên phòng thủ nhiều hơn bên tấn công.

Khung Đánh giá Mức độ Nghiêm trọng của Jailbreak (CJS)

Khung CJS được đề xuất xếp hạng mức độ nghiêm trọng của jailbreak từ CJS-0 (Thông tin) đến CJS-4 (Nghiêm trọng). Thang đo này sử dụng thang đo logarit, với mỗi cấp độ đại diện cho rủi ro cao hơn đáng kể so với cấp độ trước đó. Các hệ thống bị tấn công có thể gặp rủi ro tùy thuộc vào đánh giá này.

Bốn Trục Đánh giá

Việc đánh giá được xác định dựa trên bốn trục:

Tác động lên Hệ thống: Mức độ ảnh hưởng đến hoạt động và bảo mật của hệ thống mục tiêu.
Khả năng Khai thác: Mức độ dễ dàng mà một kẻ tấn công có thể khai thác lỗ hổng.
Phạm vi Ảnh hưởng: Số lượng và loại hệ thống hoặc người dùng bị ảnh hưởng.
Khả năng Phục hồi: Mức độ khó khăn trong việc khắc phục và khôi phục sau khi bị khai thác.

Ánh xạ Điểm số tới Mức độ Nghiêm trọng

Tổng điểm được ánh xạ tới các dải nghiêm trọng:

CJS-1 (Thấp): 1–3.5 điểm
CJS-2 (Trung bình): 4–6.5 điểm
CJS-3 (Cao): 7–8.5 điểm
CJS-4 (Nghiêm trọng): 9–10 điểm

Anthropic lưu ý rằng đánh giá cuối cùng có thể được leo thang dựa trên các yếu tố tùy ý như lỗ hổng cơ bản chưa được vá hoặc rủi ro tích lũy từ các phát hiện liên quan. Tuy nhiên, đánh giá này không bao giờ có thể bị giảm xuống.

Phản hồi và Chương trình Lỗi Thưởng

Anthropic đang tìm kiếm phản hồi về khung này thông qua địa chỉ email [email protected]. Công ty cũng đã ra mắt một chương trình lỗi thưởng dành riêng trên HackerOne để các nhà nghiên cứu báo cáo các jailbreak tiềm năng trong Fable 5. Chương trình này giúp nâng cao an ninh mạng cho các mô hình AI.

Mục tiêu Thiết lập Từ vựng Chung

Công ty coi đây là một nỗ lực giai đoạn đầu nhằm thiết lập một bộ từ vựng chung giữa các nhà phát triển AI và chính phủ để thảo luận nhất quán về rủi ro jailbreak. Việc hiểu rõ các lỗ hổng CVE tiềm ẩn là một phần quan trọng của nỗ lực này.

Loại trừ khỏi Khung CJS

Khung CJS loại trừ rõ ràng các jailbreak không liên quan đến bảo mật mạng, chẳng hạn như trích xuất câu lệnh hệ thống, vì Anthropic đã tự nguyện công bố những thông tin này. Đây là một phần của quy trình quản lý rủi ro bảo mật chủ động.

Nguồn tham khảo: Anthropic News