An ninh mạng: Claude Fable 5 bị tấn công, lộ system prompt nghiêm trọng

Vào ngày 9 tháng 6 năm 2026, Anthropic đã ra mắt Claude Fable 5, mô hình công khai đầu tiên thuộc dòng Mythos mới, đánh dấu bước tiến về khả năng AI của họ, đặc biệt trong các lĩnh vực kỹ thuật phần mềm, công việc tri thức và các bài kiểm tra về thị giác. Tuy nhiên, ngay sau khi ra mắt, mô hình này đã gặp phải một thách thức nghiêm trọng về an ninh mạng khi nhà nghiên cứu ẩn danh “Pliny the Liberator” đã thành công vượt qua các bộ phân loại an toàn của Claude Fable 5, làm rò rỉ cả system prompt với độ dài 120.000 ký tự.

Nội dung

Phân tích Kiến trúc An toàn của Claude Fable 5

Phương pháp Tấn công Vượt Rào (Jailbreak)

Chi tiết Kỹ thuật của Cuộc Tấn công

Ý nghĩa và Tác động

Phân tích Kiến trúc An toàn của Claude Fable 5

Claude Fable 5 và phiên bản hạn chế của nó, Claude Mythos 5, chia sẻ cùng một mô hình nền tảng. Sự khác biệt nằm ở lớp phân loại an toàn. Khi một truy vấn liên quan đến các danh mục rủi ro cao như an ninh mạng, sinh học, hóa học hoặc chưng cất mô hình, Fable 5 sẽ chuyển yêu cầu đó một cách âm thầm sang mô hình yếu hơn là Claude Opus 4.8 và thông báo cho người dùng về việc chuyển đổi này.

Anthropic tuyên bố rằng hoạt động săn lỗi (bug bounty) bên ngoài trước khi ra mắt đã không phát hiện ra bất kỳ phương pháp vượt rào (jailbreak) phổ quát nào, ngay cả sau hơn 1.000 giờ thử nghiệm. Tuy nhiên, tuyên bố này đã nhanh chóng bị thách thức.

Phương pháp Tấn công Vượt Rào (Jailbreak)

Chỉ vài ngày sau khi ra mắt, nhà nghiên cứu bảo mật AI nổi tiếng Pliny the Liberator đã công bố phương pháp vượt qua lớp an toàn của Fable 5. Ông sử dụng chiến lược tấn công đa tác nhân phối hợp mà ông gọi là “săn đuổi theo đàn” (a pack hunt).

Chi tiết Kỹ thuật của Cuộc Tấn công

Các ảnh chụp màn hình do Pliny chia sẻ đã tiết lộ các kết quả chi tiết, bao gồm:

Hướng dẫn từng bước về khai thác lỗi stack buffer overflow cho hệ thống x86 Linux.
Các kỹ thuật vô hiệu hóa ASLR (Address Space Layout Randomization).
Viết mã máy chủ C dễ bị tấn công với lỗi tràn strcpy.
Biên dịch mã nguồn mà không có các biện pháp bảo vệ.
Cơ chế Birch reduction, một con đường tổng hợp hóa học kinh điển.

Pliny đã ghi lại các vector tấn công được sử dụng, bao gồm:

Phân rã đa tác nhân (Multi-agent decomposition): Chia nhỏ một yêu cầu phức tạp thành nhiều yêu cầu nhỏ hơn, mỗi yêu cầu được xử lý bởi một tác nhân AI riêng biệt.
Thủ thuật Unicode (Unicode tricks): Sử dụng các ký tự Unicode đặc biệt để đánh lừa hoặc làm sai lệch cách bộ phân loại an toàn diễn giải đầu vào.
Khung tường thuật (Narrative framing): Đặt yêu cầu vào một ngữ cảnh tường thuật, khiến bộ phân loại an toàn bỏ qua hoặc đánh giá sai mức độ rủi ro.

Kỹ thuật cuối cùng, khung tường thuật, tỏ ra hiệu quả nhất. Theo Pliny, việc “nâng cấp quy trình” như phương pháp Birch reduction hoặc reductive amination dễ dàng đạt được hơn là yêu cầu trực tiếp một hợp chất nguy hiểm cụ thể. Việc sử dụng một phiên bản Opus đã bị jailbreak để hỗ trợ ở backend càng làm giảm độ khó của cuộc tấn công.

Ngoài việc vượt qua các rào cản kỹ thuật, Pliny còn rò rỉ system prompt khoảng 120.000 ký tự của Fable 5 lên GitHub. Điều này phơi bày các chỉ dẫn nội bộ và hướng dẫn an toàn mà Anthropic sử dụng để điều chỉnh hành vi của mô hình.

Ý nghĩa và Tác động

Sự cố này làm dấy lên căng thẳng kéo dài giữa khả năng của AI và việc kiểm soát an toàn. Kiến trúc phân loại của Anthropic, chuyển hướng các yêu cầu bị gắn cờ sang một mô hình yếu hơn thay vì từ chối thẳng, được thiết kế để giảm thiểu sự bất tiện cho người dùng hợp pháp.

Tuy nhiên, Pliny lập luận rằng cách tiếp cận này tạo ra cảm giác an toàn giả tạo, đồng thời gây khó chịu cho các nhà nghiên cứu bảo mật hợp pháp, những người cần truy cập vào các kỹ thuật tấn công để phục vụ công việc phòng thủ. Anthropic chưa đưa ra phản hồi công khai về các tuyên bố jailbreak hoặc việc rò rỉ system prompt tính đến thời điểm hiện tại.

Sự kiện này cũng làm nổi bật thách thức lớn hơn trong việc bảo mật các quy trình đa mô hình có khả năng hoạt động tự động (agentic). Khi một mô hình bị jailbreak (Opus) có thể hỗ trợ mô hình khác (Fable 5) trốn tránh các biện pháp kiểm soát, các đánh giá an toàn cho từng mô hình đơn lẻ có thể không còn đủ hiệu quả. Đây là một ví dụ điển hình về mối đe dọa mạng tiềm ẩn từ các hệ thống AI tiên tiến.

Để đảm bảo an toàn thông tin, các nhà nghiên cứu và tổ chức cần liên tục cập nhật và đánh giá lại các phương pháp bảo mật khi đối mặt với các lỗ hổng CVE mới hoặc các kỹ thuật tấn công zero-day. Việc hiểu rõ cơ chế hoạt động và các điểm yếu tiềm ẩn của các mô hình AI là cực kỳ quan trọng trong bối cảnh an ninh mạng ngày càng phức tạp.

Thông tin chi tiết về các lỗ hổng AI và các cuộc tấn công tương tự có thể được tham khảo trên các nguồn uy tín như CISA, nơi cung cấp các cảnh báo và hướng dẫn về các mối đe dọa an ninh mạng mới nhất.