Tấn công Prompt Injection: Microsoft bảo vệ AI toàn diện

Microsoft đã công bố hướng dẫn mới nhằm giải quyết một trong những thách thức bảo mật cấp bách nhất đối với việc triển khai AI trong doanh nghiệp: các tấn công prompt injection gián tiếp. Kỹ thuật này đã trở thành mối đe dọa hàng đầu trong danh sách OWASP Top 10 cho Ứng dụng LLM & AI Tạo sinh 2025. Điều này đã thúc đẩy gã khổng lồ công nghệ phát triển chiến lược phòng thủ đa lớp, bao gồm phòng ngừa, phát hiện và giảm thiểu tác động.

Khi các mô hình ngôn ngữ lớn (LLM) ngày càng được tích hợp vào quy trình làm việc của doanh nghiệp thông qua các nền tảng như Microsoft Copilot, các tổ chức phải đối mặt với nhiều kỹ thuật tấn công mới. Những kỹ thuật này khai thác khả năng thực thi lệnh của các hệ thống AI.

Nội dung

Hiểu về Tấn công Prompt Injection Gián tiếp

Hậu quả và Rủi ro

Chiến lược Bảo mật AI của Microsoft

Lớp Phòng ngừa

Lớp Phát hiện

Lớp Giảm thiểu Tác động

Nghiên cứu Nền tảng và Phát triển Tương lai

Hiểu về Tấn công Prompt Injection Gián tiếp

Tấn công prompt injection gián tiếp là một phương pháp tấn công tinh vi. Trong đó, kẻ tấn công nhúng các chỉ dẫn ẩn vào nội dung bên ngoài, chẳng hạn như trang web, email hoặc tài liệu được chia sẻ. LLM có thể diễn giải sai các chỉ dẫn này thành các lệnh hợp lệ.

Khác với tấn công prompt injection trực tiếp, nơi kẻ tấn công tương tác trực tiếp với hệ thống AI, các cuộc tấn công gián tiếp liên quan đến việc người dùng nạn nhân vô tình xử lý nội dung do kẻ tấn công kiểm soát.

Hậu quả và Rủi ro

Hậu quả của các cuộc tấn công này có thể rất nghiêm trọng, từ rò rỉ dữ liệu nhạy cảm cho đến các hành động trái phép được thực hiện bằng thông tin đăng nhập của người dùng. Đây là một mối đe dọa mạng mới nổi đòi hỏi các biện pháp bảo vệ toàn diện.

Chiến lược Bảo mật AI của Microsoft

Chiến lược toàn diện của Microsoft sử dụng cả các biện pháp phòng thủ xác suất (probabilistic) và xác định (deterministic) trên ba lĩnh vực quan trọng. Microsoft không chỉ dựa vào việc chặn tất cả các nỗ lực injection. Thay vào đó, công ty đã triển khai các biện pháp bảo vệ xác định để ngăn chặn các tác động an ninh ngay cả khi injection thành công. Điều này thể hiện sự tập trung vào bảo mật AI theo chiều sâu.

Lớp Phòng ngừa

Lớp phòng ngừa bao gồm việc tăng cường các prompt hệ thống và một kỹ thuật đột phá được gọi là Spotlighting. Spotlighting giúp LLM phân biệt giữa hướng dẫn của người dùng và nội dung bên ngoài có khả năng độc hại. Các phương pháp được sử dụng bao gồm:

Delimiting: Phân tách rõ ràng các phần nội dung khác nhau.
Datamarking: Đánh dấu dữ liệu để nhận diện nguồn gốc và mức độ tin cậy.
Encoding untrusted inputs: Mã hóa các đầu vào không đáng tin cậy để ngăn chặn việc diễn giải sai.

Lớp Phát hiện

Thành phần phát hiện tập trung vào Microsoft Prompt Shields, một hệ thống dựa trên bộ phân loại được huấn luyện để xác định nhiều kỹ thuật tấn công prompt injection khác nhau trên nhiều ngôn ngữ.

Công cụ này đã được tích hợp với Defender for Cloud, cung cấp khả năng hiển thị rộng khắp doanh nghiệp. Nó cũng cho phép các nhóm bảo mật tương quan các cảnh báo về khối lượng công việc AI thông qua cổng Defender XDR.

Lớp Giảm thiểu Tác động

Microsoft đã triển khai các biện pháp bảo vệ xác định để ngăn chặn tác động an ninh ngay cả khi injection thành công. Các biện pháp này bao gồm:

Kiểm soát quản trị dữ liệu chi tiết (fine-grained data governance).
Quy trình phê duyệt rõ ràng từ người dùng đối với các hành động nhạy cảm.
Chặn các phương pháp rò rỉ dữ liệu đã biết, như chèn hình ảnh markdown độc hại.

Chiến lược này cũng kết hợp các mô hình “human-in-the-loop” (có sự tham gia của con người), điển hình là Copilot trong Outlook. Tại đây, người dùng phải phê duyệt rõ ràng nội dung do AI tạo ra trước khi gửi đi. Mặc dù cách tiếp cận này có thể ảnh hưởng đến trải nghiệm người dùng, nhưng nó cung cấp khả năng bảo vệ mạnh mẽ chống lại các hành động trái phép, đặc biệt là các lỗ hổng LLM tiềm ẩn.

Nghiên cứu Nền tảng và Phát triển Tương lai

Microsoft tiếp tục phát triển lĩnh vực này thông qua nghiên cứu nền tảng, bao gồm việc phát triển TaskTracker để phân tích trạng thái nội bộ của LLM. Công ty cũng đã công bố mã nguồn mở bộ dữ liệu thử thách LLMail-Inject chứa hơn 370.000 prompt phục vụ mục đích nghiên cứu.

Khi các doanh nghiệp đẩy nhanh việc áp dụng AI, hướng dẫn toàn diện của Microsoft cung cấp một khuôn khổ để các tổ chức triển khai các biện pháp phòng thủ mạnh mẽ chống lại các tấn công prompt injection gián tiếp. Đồng thời, nó vẫn duy trì được lợi ích năng suất của các ứng dụng được hỗ trợ bởi LLM.

Sự nhấn mạnh của công ty vào phòng thủ chuyên sâu (defense-in-depth) phản ánh bản chất đang phát triển của các mối đe dọa bảo mật AI và sự cần thiết của các chiến lược bảo vệ thích ứng. Tham khảo thêm chi tiết về chiến lược này tại Blog Bảo mật của Microsoft.