Các hệ thống trí tuệ nhân tạo (AI) đang thay đổi cách thức vận hành phần mềm, đồng thời giới thiệu những rủi ro bảo mật mới mà nhiều tổ chức chưa chuẩn bị đầy đủ. AI Agentic, hay AI có khả năng tự lập kế hoạch và thực hiện các nhiệm vụ đa bước, hiện là mục tiêu tấn công theo những cách vượt xa các mô hình an ninh mạng truyền thống.
Khi các hệ thống này chuyển từ phòng thí nghiệm nghiên cứu sang môi trường sản xuất thực tế, các mối đe dọa chúng phải đối mặt ngày càng đa dạng và khó phát hiện hơn.
Hiểu rõ Rủi ro Bảo mật AI Agentic qua Red Teaming
Trong phần lớn năm vừa qua, các nhà nghiên cứu bảo mật đã tiến hành thử nghiệm nghiêm ngặt các hệ thống AI Agentic để hiểu rõ điểm yếu của chúng.
Họ không chỉ tìm thấy một vài trường hợp ngoại lệ mà là một mô hình nhất quán về các điểm yếu có thể khai thác, trải dài từ chuỗi cung ứng, giao tiếp giữa các tác nhân (inter-agent communication) đến các biện pháp bảo vệ nhằm duy trì sự kiểm soát của con người.
Phát hiện đáng báo động nhất là khả năng kẻ tấn công có thể xây dựng các chuỗi khai thác bỏ qua hoàn toàn sự giám sát của con người, từ đầu đến cuối, mà không cần bất kỳ tương tác bổ sung nào từ một người dùng.
Cập nhật Hệ thống Phân loại Các Chế độ Lỗi của Microsoft
Các nhà phân tích tại Microsoft đã xác định và ghi lại chính thức những phát hiện này thông qua một chương trình red team toàn diện nhắm vào các hệ thống AI Agentic đã được triển khai.
Microsoft đã chia sẻ trong một báo cáo updating-taxonomy-failure-modes-agentic-ai-systems-year-red-teaming-taught-us/ rằng mười hai tháng thực hiện các hoạt động red team trong môi trường thực tế đã cung cấp thông tin cho một bản cập nhật lớn của Tài liệu Phân loại Các Chế độ Lỗi trong Hệ thống AI Agentic (Taxonomy of Failure Modes in Agentic AI Systems).
Phiên bản này đã được nâng cấp từ 1.0 lên 2.0, với bảy danh mục chế độ lỗi hoàn toàn mới được bổ sung.
Các danh mục mới bao gồm: lây nhiễm chuỗi cung ứng agentic (agentic supply chain compromise), chiếm đoạt mục tiêu (goal hijacking), leo thang tin cậy giữa các tác nhân (inter-agent trust escalation), tấn công hình ảnh tác nhân sử dụng máy tính (computer use agent visual attacks), nhiễm bẩn ngữ cảnh phiên (session context contamination), lạm dụng MCP và plugin (MCP and plugin abuse), và tiết lộ khả năng hoặc kiến trúc (capability or architecture disclosure).
Mỗi danh mục mô tả một cách thức riêng biệt mà một hệ thống agentic có thể bị thao túng, điều mà trước đây chưa tồn tại hoặc chưa được đề cập đầy đủ. Việc cập nhật này cải thiện khả năng đánh giá rủi ro bảo mật của các hệ thống AI.
Thực trạng Khai thác: Các Lỗ hổng và Bề mặt Tấn công
Phạm vi của hệ sinh thái bị nhắm mục tiêu trở nên rõ ràng khi framework mã nguồn mở OpenClaw ra mắt vào tháng 1 năm 2026 và tích lũy được hơn 336.000 GitHub stars chỉ trong vòng 48 giờ.
CVE-2026-25253 và Lỗ hổng trong OpenClaw
Một cuộc kiểm tra an ninh ngay sau đó đã xác định 512 lỗ hổng, bao gồm CVE-2026-25253, một lỗ hổng thực thi mã từ xa (RCE) một cú nhấp chuột thông qua tấn công chiếm quyền điều khiển WebSocket.
Thông tin chi tiết về lỗ hổng CVE này có thể được tìm thấy tại 1-click-clawdbot-vulnerability-enable-malicious-remote-code-execution-attacks/. Trong tuần đầu tiên đó, hơn 1.800 phiên bản bị lộ đã làm rò rỉ API keys và thông tin xác thực.
Rủi ro từ Model Context Protocol (MCP)
Model Context Protocol (MCP) đã trở thành cách thức tiêu chuẩn để các mô hình AI kết nối với các công cụ bên ngoài, đồng thời cũng trở thành một bề mặt tấn công đáng kể.
Vào năm 2025, các nhà nghiên cứu đã ghi nhận 99 CVEs liên quan đến phần mềm sử dụng MCP, và việc đầu độc công cụ (tool poisoning) đã chuyển từ mối lo ngại lý thuyết thành một hoạt động mà kẻ tấn công đang tích cực thực hiện trong thực tế. Điều này đặt ra thách thức lớn cho an ninh mạng của các hệ thống dựa trên AI.
Vượt qua Cơ chế Kiểm soát: Zero-Click Chains và Consent Fatigue
Phát hiện thu hút sự chú ý nghiêm trọng nhất là khả năng đáng tin cậy của các đội red team trong việc vượt qua các kiểm soát “con người trong vòng lặp” (human-in-the-loop controls).
Đây là các điểm kiểm tra được thiết kế để yêu cầu sự chấp thuận của con người trước khi một tác nhân AI thực hiện một hành động nhạy cảm.
Kỹ thuật Vượt qua Kiểm soát của Con người
Kẻ tấn công đã đạt được điều này thông qua sự mệt mỏi chấp thuận (consent fatigue), dần dần làm suy yếu quy trình xem xét bằng cách lặp đi lặp lại các yêu cầu ít rủi ro cho đến khi một hành động có tác động lớn bị bỏ qua.
Điều này cho thấy cần phải có các biện pháp an ninh mạng mạnh mẽ hơn để ngăn chặn các kỹ thuật xã hội hóa nhắm vào quy trình phê duyệt.
Chuỗi Tấn công Không Cần Tương tác (Zero-Click)
Quan trọng hơn, một số thử nghiệm đã tạo ra các chuỗi tấn công end-to-end không cần tương tác (zero-click). Trong đó, không yêu cầu bất kỳ tương tác nào từ con người ngoài việc khởi chạy tác nhân ban đầu.
Tuy nhiên, kết quả bao gồm việc rò rỉ dữ liệu hoặc di chuyển ngang trong môi trường mục tiêu. Các chi tiết kỹ thuật về RCE không cần tương tác có thể được tham khảo thêm tại outlook-zero-click-rce-technical-details/.
Những chuỗi tấn công này hoạt động bằng cách kết hợp nhiều chế độ lỗi, mỗi chế độ riêng lẻ đều tinh vi, thành một cuộc tấn công tổng hợp mà không một điểm kiểm tra nào có thể phát hiện được.
Nhiễm Bẩn Ngữ cảnh Phiên (Session Context Contamination)
Nhiễm bẩn ngữ cảnh phiên, nơi dữ liệu được tiêm vào giai đoạn đầu âm thầm định hình lý luận của tác nhân ở các bước sau, đã chứng tỏ là đặc biệt khó phát hiện.
Lý do là không có bất kỳ điều gì trong từng bước riêng lẻ trông đáng ngờ. Đây là một rủi ro bảo mật tiềm ẩn cho tính toàn vẹn của các quyết định AI.
Chiến lược Giảm thiểu và An ninh mạng
Các biện pháp giảm thiểu của Microsoft cho những rủi ro này mang tính thực tiễn và kiến trúc. Các tổ chức được khuyến nghị tạo một hóa đơn vật liệu phần mềm (Software Bill of Materials – SBOM) cho mọi tác nhân được triển khai.
SBOM này nên bao gồm các plugin, máy chủ MCP và mẫu lời nhắc (prompt templates).
- Xác minh danh tính tác nhân bằng mật mã, không nên giả định từ vị trí của nó trong quy trình làm việc.
- Các kiểm soát “con người trong vòng lặp” cần được củng cố chống lại sự phân tách hành động tổng hợp (compound action decomposition) và rửa nghĩa ngữ nghĩa (semantic laundering). Đây là nơi một tác nhân viết lại mô tả phê duyệt để che giấu những gì nó đang yêu cầu.
- Quy trình phê duyệt theo cấp độ dựa trên khả năng hoàn tác hành động và giám sát các mẫu yêu cầu phê duyệt bất thường là những kiểm soát được khuyến nghị để tăng cường an ninh mạng tổng thể.
Việc triển khai các bản vá bảo mật và các cập nhật liên tục là cực kỳ quan trọng để bảo vệ chống lại các lỗ hổng CVE mới và các kỹ thuật tấn công đang phát triển.










