Claude Fable 5: Vượt trội An ninh mạng với Agentic Hacking

Anthropic đã giới thiệu Claude Fable 5, mô hình đầu tiên trong phân khúc Mythos mới. Phân khúc này đủ mạnh mẽ để được tích hợp các biện pháp an ninh mạng ngay từ khi phát triển. Fable 5 vượt trội hơn dòng Claude Opus, đạt kết quả tiên tiến trên hầu hết các bài kiểm tra năng lực, đặc biệt là trong các tác vụ phức tạp, đa bước và kéo dài.

Nội dung

Năng lực và Rủi ro của Mô hình Mythos

Cơ chế Giảm thiểu Rủi ro

Claude Mythos 5: Phiên bản Nâng cao cho Chuyên gia An ninh mạng

Chi phí và Chính sách Lưu trữ Dữ liệu

Năng lực và Rủi ro của Mô hình Mythos

Các mô hình thuộc phân khúc Mythos có khả năng phát hiện và khai thác các lỗ hổng phần mềm hiệu quả, cũng như thực hiện “agentic hacking” – một chuỗi các hoạt động từ trinh sát, phát hiện, di chuyển ngang sang khai thác lỗ hổng trong toàn bộ vòng đời tấn công. Khả năng này mang tính hai mặt, do đó việc ra mắt Fable 5 được chú trọng vào cơ chế phòng vệ.

Thay vì từ chối các yêu cầu nhạy cảm, Fable 5 sẽ chuyển hướng chúng tới một mô hình có năng lực thấp hơn. Một lớp phân loại riêng biệt giám sát các yêu cầu liên quan đến an ninh mạng, sinh học, hóa học hoặc chưng cất mô hình. Các phiên làm việc này sẽ được chuyển giao cho Claude Opus 4.8 thay vì để Fable 5 xử lý. Người dùng sẽ nhận được thông báo khi cơ chế chuyển hướng này được kích hoạt.

Cơ chế Giảm thiểu Rủi ro

Anthropic đã tinh chỉnh các bộ phân loại một cách thận trọng, thừa nhận rằng chúng có thể cảnh báo nhầm đối với một số yêu cầu hợp lệ. Tuy nhiên, các quy trình chuyển hướng chỉ kích hoạt dưới 5% số phiên làm việc, nghĩa là hơn 95% các phiên vẫn sử dụng toàn bộ năng lực của Fable.

Về khía cạnh an ninh mạng, các đánh giá nội bộ cho thấy các bộ phân loại đã ngăn chặn Fable tiến triển đáng kể trong các nhiệm vụ tấn công. Anthropic đã thực hiện một chương trình săn lỗi bên ngoài, không phát hiện được bất kỳ phương thức vượt rào (jailbreak) phổ biến nào sau hơn 1.000 giờ thử nghiệm. Các tổ chức đánh giá an ninh mạng độc lập cũng báo cáo không tìm thấy các phương thức vượt rào phổ biến cho các tác vụ agentic dài hạn.

Một điểm đáng chú ý là Viện An toàn AI của Vương quốc Anh đã có những tiến bộ ban đầu trong việc tìm ra một phương thức vượt rào trong khoảng thời gian thử nghiệm ngắn. Một đối tác bên ngoài được cho là đã đánh giá hệ thống phòng thủ của Fable là mạnh mẽ nhất trong số các mô hình đã thử nghiệm, không cho phép bất kỳ hành vi độc hại nào trong các yêu cầu một lượt liên quan đến lập kế hoạch tấn công, phát triển mã khai thác hoặc né tránh phòng thủ, ngay cả khi kết hợp với 30 kỹ thuật vượt rào công khai.

Claude Mythos 5: Phiên bản Nâng cao cho Chuyên gia An ninh mạng

Bên cạnh Fable 5, Anthropic còn cung cấp phiên bản Claude Mythos 5, sử dụng cùng một mô hình cơ bản nhưng đã loại bỏ các biện pháp bảo vệ an ninh mạng. Phiên bản này dành cho một nhóm chuyên gia bảo mật và nhà cung cấp cơ sở hạ tầng hạn chế.

Claude Mythos 5 ban đầu được triển khai thông qua Project Glasswing, hợp tác với chính phủ Hoa Kỳ. Mô hình này được mô tả là có năng lực an ninh mạng mạnh mẽ nhất trong số các mô hình hiện có trên thế giới. Quyền truy cập dự kiến sẽ mở rộng thông qua một chương trình cấp phép tin cậy.

Chi phí và Chính sách Lưu trữ Dữ liệu

Cả hai mô hình, Claude Fable 5 và Claude Mythos 5, đều có chi phí là 10 USD cho mỗi triệu token đầu vào và 50 USD cho mỗi triệu token đầu ra. Một chính sách mới yêu cầu lưu trữ dữ liệu trong 30 ngày đối với tất cả lưu lượng truy cập thuộc phân khúc Mythos. Dữ liệu này chỉ được sử dụng cho mục đích an toàn nhằm phát hiện các phương thức vượt rào mới, tấn công đa yêu cầu và các trường hợp dương tính giả, và không bao giờ được sử dụng để huấn luyện mô hình.

Các nhà phát triển có thể gọi API của claude-fable-5 ngay hôm nay.

Để cập nhật những tin tức và phân tích mới nhất về an ninh mạng, vui lòng theo dõi chúng tôi trên Cyber Security News.