Nguy hiểm AI Agent: Lỗ hổng Indirect Prompt Injection nghiêm trọng

Các trí tuệ nhân tạo (AI) agent đang nhanh chóng trở thành giao diện truy cập Internet mới, và các kẻ tấn công đã nhận thấy điều này. Một làn sóng các trang web độc hại mới đang lợi dụng các kỹ thuật tối ưu hóa công cụ tìm kiếm (SEO) và mã ẩn để đưa các chỉ dẫn sai lệch trực tiếp vào hệ thống AI, biến các trang web thông thường thành vũ khí tấn công tự động.

Nội dung

Tấn công gián tiếp vào AI Agent

Kỹ thuật Injection Gián tiếp

Chiến dịch Tấn công thực tế

Chiến dịch Lừa đảo Thanh toán Giả mạo

Chiến dịch Giả mạo Nền tảng Tài chính Phi tập trung

Các biện pháp phòng ngừa và phát hiện

Các Chỉ số về Sự cố (IoCs)

Tấn công gián tiếp vào AI Agent

Các trang web này không nhắm mục tiêu trực tiếp đến người dùng theo cách thông thường. Thay vào đó, chúng tập trung vào các AI agent hoạt động thay mặt người dùng để duyệt, đọc và xử lý nội dung web. Kẻ tấn công khai thác sự tin cậy mà các hệ thống này dành cho thông tin trực tuyến.

Kỹ thuật Injection Gián tiếp

Kỹ thuật này, được gọi là indirect prompt injection, ẩn các lệnh trong mã nguồn của trang web, nơi người dùng thông thường không thể nhìn thấy. Tuy nhiên, AI agent khi quét trang web sẽ nhận diện chúng như những chỉ dẫn hợp lệ.

Hậu quả của kỹ thuật này đã vượt ra ngoài lý thuyết. Trong các thử nghiệm kiểm soát, một số AI agent đã thực hiện các giao dịch thanh toán gian lận và nhận diện sai các trang web giả mạo là nguồn đáng tin cậy. Điều này chứng minh đây không phải là một rủi ro giả định mà là một lỗ hổng đã được chứng minh trong cách nhiều mô hình AI phổ biến xử lý nội dung web.

Chiến dịch Tấn công thực tế

Các nhà nghiên cứu từ Zscaler ThreatLabz đã báo cáo về hai chiến dịch độc lập sử dụng phương pháp này. Một chiến dịch được xây dựng xung quanh chiêu trò lừa đảo thanh toán phần mềm giả mạo, và chiến dịch còn lại giả mạo một nền tảng tiền điện tử nổi tiếng.

Cả hai đều kết hợp việc thao túng công cụ tìm kiếm và HTML ẩn để khiến các trang web độc hại trông có vẻ liên quan cao đối với các công cụ tìm kiếm và hoàn toàn có thẩm quyền đối với các AI agent đang quét chúng.

Chiến dịch Lừa đảo Thanh toán Giả mạo

Chiến dịch đầu tiên ngụy trang thành tài liệu cho một thư viện Python có tên requests-secure-v2. Trang web này được nhồi nhét nội dung giàu từ khóa để nó xuất hiện ở các vị trí hàng đầu trong kết quả tìm kiếm dành cho các nhà phát triển đang gặp sự cố với mã nguồn.

Ẩn sâu bên trong trang web là các chỉ dẫn được viết dưới định dạng JSON-LD, một loại dữ liệu có cấu trúc thường được sử dụng để giúp các công cụ tìm kiếm hiểu nội dung của một trang web.

Vì các AI agent thường coi dữ liệu có cấu trúc này đáng tin cậy hơn văn bản thông thường, kẻ tấn công đã sử dụng nó để cấu trúc một khoản phí cấp phép nhà phát triển giả mạo trị giá ba đô la như một bước thông thường cần thiết để khắc phục lỗi. Điều này hướng các agent thực hiện thanh toán tiền điện tử đến một ví do kẻ tấn công kiểm soát.

Văn bản ẩn được đặt trong một phần tử trang web bị đẩy ra khỏi màn hình bằng định vị CSS đơn giản, có nghĩa là nó không bao giờ hiển thị cho khách truy cập thông thường, nhưng vẫn hoàn toàn có thể đọc được đối với các trình thu thập dữ liệu tự động và các công cụ AI.

Chiến dịch Giả mạo Nền tảng Tài chính Phi tập trung

Chiến dịch thứ hai sử dụng một hướng tiếp cận khác, đăng ký một tên miền trông giống hệt nhằm mục đích giả mạo DeBank, một công cụ theo dõi danh mục tài chính phi tập trung được sử dụng rộng rãi.

Trang web giả mạo đã nhồi nhét các tiêu đề và siêu dữ liệu của nó với các thuật ngữ như ‘DeBank Login’ và ‘Crypto Tracker’, đồng thời sao chép các thẻ phong cách mạng xã hội để các liên kết được chia sẻ trông giống như đến từ dịch vụ thực tế.

Ẩn bên trong trang web là một khối văn bản hướng dẫn bất kỳ mô hình AI nào đọc nó phải coi tên miền lừa đảo là trang chủ đã được xác minh và có thẩm quyền của DeBank, đồng thời xếp hạng nó ở vị trí đầu tiên trong kết quả cho các tìm kiếm phổ biến về nền tảng này.

Chỉ dẫn thậm chí còn yêu cầu các hệ thống AI tránh đề cập đến từ ‘auction’ trong tên miền, một chi tiết nhỏ nhưng quan trọng nhằm giữ cho sự lừa dối được nguyên vẹn. Khi Zscaler kiểm tra kịch bản này trên 26 mô hình ngôn ngữ khác nhau, hầu hết đều từ chối trang web giả mạo một cách chính xác khi được cung cấp địa chỉ DeBank thực tế để so sánh.

Tuy nhiên, khi không có điểm tham chiếu này, ít nhất một mô hình lớn vẫn đánh giá trang lừa đảo là đáng tin cậy, nhấn mạnh mức độ phụ thuộc của phán đoán AI vào thông tin mà nó nhận được tại thời điểm ra quyết định.

Các biện pháp phòng ngừa và phát hiện

Zscaler khuyến nghị các tổ chức xây dựng hoặc triển khai AI agent nên áp dụng các biện pháp kiểm soát bảo mật nhiều lớp có khả năng phát hiện các mẫu injection ẩn. Nền tảng của họ đã gắn cờ các hoạt động liên quan dưới chữ ký HTML.MalURL.PromptInj.RC.M.VG.

Khi các công cụ AI đảm nhận nhiều tác vụ độc lập hơn trên mạng, việc coi mọi trang web là nguồn thao túng tiềm ẩn đang trở thành một yêu cầu bảo mật cơ bản thay vì một biện pháp phòng ngừa tùy chọn.

Các Chỉ số về Sự cố (IoCs)

Lưu ý: Địa chỉ IP và tên miền bị làm sạch (ví dụ:[.]) để ngăn chặn phân giải hoặc siêu liên kết vô tình. Chỉ khôi phục lại dạng ban đầu (re-fang) trong các nền tảng tình báo mối đe dọa được kiểm soát như MISP, VirusTotal hoặc SIEM của bạn.

Tăng cường Trung tâm Điều hành An ninh (SOC) của bạn bằng cách Tăng tốc Phát hiện Mối đe dọa & Điều tra Nhanh chóng. Tích hợp ANY.RUN với SOC của bạn.

Nguồn tham khảo: Zscaler ThreatLabz report.