Lỗ hổng bảo mật AI nghiêm trọng trên Claude.ai: Nguy cơ Trích xuất Dữ liệu

Lỗ hổng bảo mật AI nghiêm trọng trên Claude.ai: Nguy cơ Trích xuất Dữ liệu

Một chuỗi ba lỗ hổng bảo mật AI liên tiếp trong Claude.ai, trợ lý AI được sử dụng rộng rãi của Anthropic, đã được phát hiện. Chuỗi này cho phép kẻ tấn công trích xuất dữ liệu hội thoại nhạy cảm một cách âm thầm và chuyển hướng người dùng không nghi ngờ đến các trang web độc hại. Chuỗi lỗ hổng này, được đặt tên chung là Claudy Day, không yêu cầu bất kỳ tích hợp, công cụ hay cấu hình máy chủ MCP nào để khai thác.

Claudy Day là một ví dụ điển hình về những thách thức mới trong việc đảm bảo an toàn thông tin khi sử dụng các nền tảng trí tuệ nhân tạo.

Hiểu Rõ Chuỗi Lỗ Hổng Bảo Mật AI Claudy Day

Cuộc tấn công Claudy Day khai thác ba điểm yếu độc lập trên nền tảng claude.com, xâu chuỗi chúng thành một quy trình thỏa hiệp hoàn chỉnh từ đầu đến cuối.

Khai Thác Lỗ Hổng Prompt Injection Ẩn Qua Tham Số URL

Claude.ai hỗ trợ các prompt được điền sẵn thông qua tham số URL, một tính năng cho phép người dùng hoặc bên thứ ba mở phiên trò chuyện với văn bản được tải trước.

claude.ai/new?q=<nội dung prompt>

Các nhà nghiên cứu đã phát hiện ra rằng một số thẻ HTML nhất định có thể được nhúng vào tham số q này và hiển thị vô hình trong trường nhập liệu trò chuyện.

Tuy nhiên, các thẻ này vẫn được Claude xử lý hoàn toàn khi prompt được gửi. Điều này tạo ra một lỗ hổng bảo mật AI nghiêm trọng.

Kẻ tấn công có thể che giấu các hướng dẫn tùy ý, bao gồm các lệnh trích xuất dữ liệu, bên trong một prompt dường như hoàn toàn bình thường, không thể nhìn thấy đối với nạn nhân.

Lỗ Hổng Trích Xuất Dữ Liệu Qua API Files của Anthropic

Sandbox thực thi mã của Claude hạn chế hầu hết các kết nối mạng bên ngoài nhưng vẫn cho phép lưu lượng truy cập đến api.anthropic.com.

Bằng cách nhúng khóa API do kẻ tấn công kiểm soát vào payload prompt injection ẩn, các nhà nghiên cứu đã chứng minh rằng Claude có thể được hướng dẫn để tìm kiếm lịch sử trò chuyện của người dùng để lấy dữ liệu nhạy cảm.

Dữ liệu này sau đó được biên soạn thành một tệp và âm thầm tải lên tài khoản Anthropic của kẻ tấn công thông qua API Files. Đây là một hậu quả trực tiếp của lỗ hổng bảo mật AI này.

Kẻ tấn công có thể truy xuất dữ liệu bị trích xuất theo ý muốn mà không cần công cụ bên ngoài hay tích hợp của bên thứ ba nào. Để tham khảo thêm về cơ chế API Files của Anthropic, có thể xem tại tài liệu chính thức của Anthropic.

Lỗ Hổng Chuyển Hướng Mở trên Claude.com

Bất kỳ URL nào theo cấu trúc claude.com/redirect/<target> sẽ chuyển hướng khách truy cập đến các miền của bên thứ ba tùy ý mà không cần xác thực.

Các nhà nghiên cứu đã chứng minh rằng điều này có thể được vũ khí hóa với Google Ads, vốn xác thực quảng cáo bằng hostname.

Kẻ tấn công có thể đặt một quảng cáo tìm kiếm trả phí hiển thị URL claude.com đáng tin cậy. Khi nhấp vào, quảng cáo này sẽ âm thầm chuyển tiếp nạn nhân đến URL injection độc hại của kẻ tấn công, không thể phân biệt được với kết quả tìm kiếm Claude hợp pháp.

Chi tiết về lỗ hổng này và cách khai thác có thể được tìm thấy trong báo cáo của Oasis Security: Claude AI Prompt Injection and Data Exfiltration Vulnerability.

Phạm Vi Ảnh Hưởng và Nguy Cơ Mạng

Ngay cả trong phiên Claude.ai mặc định, lịch sử trò chuyện có thể chứa thông tin cực kỳ nhạy cảm. Ví dụ bao gồm các cuộc thảo luận chiến lược kinh doanh, kế hoạch tài chính, các vấn đề y tế, mối quan hệ cá nhân và thông tin liên quan đến đăng nhập.

Thông qua payload injection, kẻ tấn công có thể hướng dẫn Claude lập hồ sơ người dùng bằng cách tóm tắt các cuộc trò chuyện trước đây. Ngoài ra, nó có thể trích xuất các cuộc trò chuyện về các chủ đề nhạy cảm cụ thể như một thương vụ mua lại đang chờ xử lý hoặc chẩn đoán sức khỏe.

Mô hình AI cũng có thể tự động xác định và trích xuất nội dung mà nó cho là nhạy cảm nhất, thể hiện rủi ro lớn từ lỗ hổng bảo mật AI này.

Trong môi trường doanh nghiệp có máy chủ MCP, tích hợp tệp hoặc kết nối API được bật, phạm vi tấn công mở rộng đáng kể.

Các hướng dẫn được inject có thể đọc tài liệu, gửi tin nhắn thay mặt người dùng và tương tác với bất kỳ dịch vụ kinh doanh được kết nối nào, tất cả đều được thực thi âm thầm trước khi người dùng có thể can thiệp.

Khả năng nhắm mục tiêu của Google Ads, bao gồm Customer Match cho các địa chỉ email cụ thể, còn cho phép kẻ tấn công điều hướng cuộc tấn công này một cách chính xác tới các cá nhân được biết là có giá trị cao, tăng cường nguy cơ mạng.

Các Biện Pháp Khắc Phục và Khuyến Nghị Bảo Mật

Anthropic đã xác nhận rằng lỗ hổng prompt injection đã được khắc phục, và các vấn đề còn lại đang được xử lý tích cực. Đây là một bước quan trọng trong việc giảm thiểu lỗ hổng bảo mật AI.

Các tổ chức dựa vào Claude.ai hoặc các nền tảng AI tương tự nên kiểm tra tất cả các tích hợp tác nhân (agent integrations) và vô hiệu hóa các quyền không cần thiết.

Việc này nhằm mục đích giảm bề mặt tấn công khả dụng và tăng cường an toàn thông tin.

Người dùng cần được đào tạo rằng các prompt được điền sẵn và các liên kết Claude được chia sẻ có thể mang theo các hướng dẫn ẩn. Đây là một mô hình đe dọa mà hầu hết người dùng hiện không xem xét.

Từ góc độ quản trị doanh nghiệp, các tác nhân AI giữ thông tin xác thực và thực hiện các hành động tự động phải được xử lý bằng các kiểm soát truy cập tương tự áp dụng cho người dùng và tài khoản dịch vụ.

Các biện pháp này bao gồm phân tích ý định, truy cập kịp thời có phạm vi (scoped just-in-time access) và nhật ký kiểm tra đầy đủ (full audit trails). Điều này là tối cần thiết để quản lý hiệu quả các lỗ hổng bảo mật AI.

Thông tin tiết lộ này tiếp nối nghiên cứu trước đây của Oasis Security về OpenClaw, củng cố một mô hình nhất quán và đang gia tăng: các tác nhân AI có quyền truy cập rộng có thể bị chiếm quyền điều khiển thông qua một đầu vào bị thao túng duy nhất, làm nổi bật thêm các loại lỗ hổng bảo mật AI phức tạp.