Ngăn chặn AI tăng cường tấn công mạng: Thách thức lớn!

Anthropic, một công ty nghiên cứu AI hàng đầu, đã thành công trong việc ngăn chặn nhiều nỗ lực lạm dụng mô hình AI Claude của mình bởi các tội phạm mạng. Các đối tượng này tìm cách sử dụng AI cho các tấn công mạng phức tạp, như chi tiết trong báo cáo Tình báo Mối đe dọa mới nhất của Anthropic.

Công ty đã triển khai các biện pháp bảo vệ tiên tiến, bao gồm bộ phân loại thời gian thực (real-time classifiers) và kỹ thuật tóm tắt phân cấp (hierarchical summarization). Các công cụ này giúp phát hiện và giảm thiểu các hành vi lạm dụng AI.

Nội dung

Các Biện pháp Bảo vệ và Hệ thống Phát hiện của Anthropic

Khung Hài hòa Thống nhất và Kiểm tra Tính dễ bị tổn thương của Chính sách

AI và **Mối đe dọa mạng** Ngày càng Tăng

Trường hợp 1: “Vibe Hacking” và Tống tiền Dữ liệu Quy mô lớn

Trường hợp 2: Lừa đảo Lao động Từ xa do Triều Tiên Tổ chức

Trường hợp 3: Phát triển **Mã độc ransomware** qua AI

Các Nỗ lực Giám sát và Nghiên cứu Liên tục

Các Biện pháp Bảo vệ và Hệ thống Phát hiện của Anthropic

Thông qua việc áp dụng các biện pháp kỹ thuật này, Anthropic đã cấm các tài khoản liên quan và tăng cường hệ thống phát hiện của mình. Mục tiêu là chống lại các hoạt động khai thác AI tác nhân (agentic AI exploitation).

Trong các trường hợp này, các mô hình AI tự động thực hiện các quyết định chiến thuật và chiến lược trong các hoạt động mạng. Việc này nhấn mạnh thách thức ngày càng tăng của AI khi làm giảm rào cản gia nhập đối với các tội phạm mạng phức tạp.

AI cho phép các tác nhân, dù có chuyên môn kỹ thuật tối thiểu, vẫn có thể tổ chức các vụ lừa đảo và tống tiền quy mô lớn.

Khung Hài hòa Thống nhất và Kiểm tra Tính dễ bị tổn thương của Chính sách

Báo cáo của Anthropic nêu bật cách các tác nhân đe dọa đang tích hợp AI vào toàn bộ quy trình hoạt động của họ. Từ việc tạo hồ sơ nạn nhân (victim profiling) và phân tích dữ liệu, đến việc tạo danh tính giả mạo và phát triển mã độc.

Khung Hài hòa Thống nhất (Unified Harm Framework) và Kiểm tra Tính dễ bị tổn thương của Chính sách (Policy Vulnerability Testing) của Anthropic đã đóng vai trò quan trọng trong việc xác định các rủi ro này. Chúng cung cấp thông tin cho việc cập nhật chính sách và tinh chỉnh mô hình để ngăn chặn các kết quả đầu ra có hại.

Ví dụ, các hợp tác với các chuyên gia bên ngoài về an ninh mạng và sức khỏe tâm thần đã cải thiện phản ứng của Claude. Điều này đảm bảo Claude từ chối hỗ trợ các hoạt động bất hợp pháp, đồng thời xử lý các chủ đề nhạy cảm một cách tinh tế.

Các biện pháp chủ động này, kết hợp với đánh giá an toàn trước triển khai và đánh giá sai lệch, đã củng cố mô hình chống lại việc lạm dụng trong các lĩnh vực rủi ro cao. Bao gồm các mối đe dọa hóa học, sinh học, phóng xạ và hạt nhân (CBRNE).

AI và Mối đe dọa mạng Ngày càng Tăng

Các sự cố được ghi nhận minh họa rõ nét vai trò của AI trong việc vũ khí hóa các khả năng tác nhân (agentic capabilities) cho các tấn công mạng. AI không chỉ giảm các yêu cầu kỹ thuật tiên quyết cho các tội phạm phức tạp mà còn được nhúng vào tất cả các giai đoạn của hành vi lừa đảo.

Sự phát triển này loại bỏ nhu cầu đào tạo chuyên môn trong nhiều năm, mở rộng quy mô của các vụ lừa đảo.

Trường hợp 1: “Vibe Hacking” và Tống tiền Dữ liệu Quy mô lớn

Trong một trường hợp nổi bật được gọi là “vibe hacking”, một tội phạm mạng đã sử dụng Claude Code, một công cụ tác nhân để lập trình tự động, nhằm mở rộng quy mô một hoạt động tống tiền dữ liệu. Hoạt động này nhắm mục tiêu vào hơn 17 tổ chức trên các lĩnh vực chăm sóc sức khỏe, dịch vụ khẩn cấp, chính phủ và tôn giáo.

Đáng chú ý, vụ việc này được liên kết với chiến thuật của nhóm UNC3944, vốn nổi tiếng với các phương pháp tấn công chuyển từ SIM-swapping sang ransomware.

Không giống như các cuộc tấn công ransomware truyền thống mã hóa dữ liệu, tác nhân này đã sử dụng AI để tự động hóa trinh sát, thu thập thông tin xác thực (credential harvesting) và xâm nhập mạng. Thậm chí AI còn được dùng để thao túng tâm lý trong các yêu cầu tống tiền.

Claude đã phân tích dữ liệu tài chính bị rò rỉ (exfiltrated financial data) để điều chỉnh số tiền chuộc, thường vượt quá 500.000 USD. AI cũng tạo ra các thông báo tống tiền tùy chỉnh với hình ảnh đáng báo động và các chiến lược kiếm tiền. Các chiến lược này bao gồm tống tiền trực tiếp, thương mại hóa dữ liệu và nhắm mục tiêu cá nhân.

Nhóm tình báo mối đe dọa của Anthropic đã mô phỏng các chiến thuật này để nghiên cứu, tiết lộ cách AI cho phép thích ứng theo thời gian thực với các hệ thống phòng thủ như trình phát hiện mã độc.

Sau khi phát hiện, Anthropic đã triển khai một bộ phân loại tùy chỉnh để phát hiện nhanh chóng, cấm các tài khoản và chia sẻ các chỉ số với các cơ quan chức năng để ngăn chặn các sự cố trong tương lai.

Trường hợp 2: Lừa đảo Lao động Từ xa do Triều Tiên Tổ chức

Một hoạt động khác liên quan đến các đặc vụ Triều Tiên sử dụng Claude để thực hiện lừa đảo lao động từ xa. Chúng đã giành được các vị trí tại các công ty công nghệ thuộc Fortune 500 của Hoa Kỳ thông qua các danh tính giả mạo và đánh giá kỹ thuật được hỗ trợ bởi AI.

Bằng cách vượt qua các rào cản về ngôn ngữ và kỹ năng, các tác nhân này đã tạo ra hồ sơ chuyên nghiệp, vượt qua các cuộc phỏng vấn viết mã và thực hiện công việc thực tế. Lợi nhuận sau đó được chuyển về chế độ, vi phạm các lệnh trừng phạt quốc tế.

Anthropic đã phản ứng bằng cách tăng cường các công cụ tương quan chỉ số, cấm các tài khoản và hợp tác với các thực thể như FBI để củng cố hệ thống phòng thủ. Thông tin chi tiết về các biện pháp đối phó này có thể được tìm thấy tại báo cáo chính thức của Anthropic.

Trường hợp 3: Phát triển Mã độc ransomware qua AI

Ngoài ra, một tội phạm mạng có kỹ năng thấp đã lợi dụng Claude để tạo và bán các biến thể ransomware-as-a-service (RaaS) trên các diễn đàn dark web. Các biến thể này được rao bán với giá từ 400 USD đến 1.200 USD.

AI đã xử lý các thuật toán mã hóa, kỹ thuật né tránh và cơ chế chống phục hồi – những tác vụ vượt quá khả năng của tác nhân đó. Đây là một ví dụ rõ ràng về việc AI làm giảm đáng kể rào cản kỹ thuật cho các tấn công mạng phức tạp.

Anthropic đã cấm tài khoản này và giới thiệu các phương pháp phát hiện mã độc mới để kiềm chế việc khai thác nền tảng.

Các Nỗ lực Giám sát và Nghiên cứu Liên tục

Anthropic tiếp tục giám sát chặt chẽ, bao gồm các công cụ phân tích thông tin bảo mật quyền riêng tư và tình báo mối đe dọa từ các diễn đàn hacker. Mục tiêu là để dự đoán các hành vi lạm dụng mới.

Công ty dự định ưu tiên nghiên cứu về các hoạt động lừa đảo được tăng cường bởi AI và chia sẻ các phát hiện với các đối tác trong ngành và chính phủ.

Thông qua các chương trình tiền thưởng lỗi (bug bounty programs) và các hợp tác, Anthropic tiếp tục tinh chỉnh các biện pháp bảo vệ của mình. Điều này nhằm đảm bảo Claude vẫn là một công cụ mang lại lợi ích trong khi ngăn chặn các khai thác độc hại cho các tấn công mạng.