Các AI agents đang trở thành một phần cốt lõi trong cách các công ty quản lý hộp thư đến, phân loại tin nhắn, truy xuất tệp và thậm chí trả lời email thay mặt nhân viên. Nghiên cứu mới đã xác nhận rằng các tác nhân này có thể bị đánh lừa giống như con người, và đôi khi còn dễ dàng hơn.
Mô phỏng tấn công lừa đảo nhắm vào AI agents
Một cuộc tấn công lừa đảo mô phỏng mới đã cho thấy một AI agent tên là OpenClaw có thể bị thao túng để tiết lộ thông tin đăng nhập nhạy cảm chỉ với một email thuyết phục duy nhất. Trong các thử nghiệm có kiểm soát, agent này đã chuyển tiếp các khóa IAM của AWS, mật khẩu cơ sở dữ liệu và quyền truy cập SSH đến một địa chỉ Gmail bên ngoài, làm dấy lên những lo ngại tức thời về cách các AI agents xử lý sự tin cậy và danh tính.
Các nhà nghiên cứu từ Varonis Threat Labs đã thiết kế thử nghiệm này để kiểm tra xem các kỹ thuật lừa đảo vốn đã nhắm mục tiêu vào con người trong một thời gian dài có hoạt động đối với AI agents hay không.
Môi trường thử nghiệm
Họ đã đặt một OpenClaw agent có tên Pinchy vào bốn tình huống mô phỏng lừa đảo dưới hai cấu hình: một thiết lập năng suất chung và một thiết lập tuân thủ bảo mật nghiêm ngặt hơn. Varonis cho biết trong một báo cáo được chia sẻ với Cyber Security News (CSN) rằng kết quả thật đáng báo động.
Thiết lập phòng thí nghiệm đã phản ánh một hộp thư doanh nghiệp thực tế, được cung cấp dữ liệu giả về thông tin đăng nhập AWS, xuất CRM, các cuộc hội thoại nội bộ và lời mời lịch.
Mục tiêu là xem agent phản ứng như thế nào khi đối mặt với các yêu cầu có vẻ hoàn toàn bình thường.
Thành công của kỹ thuật lừa đảo xã hội
Các nhà nghiên cứu phát hiện ra rằng OpenClaw gặp khó khăn nhất với việc thao túng xã hội, chứ không phải là sự lừa dối về mặt kỹ thuật. Nó có thể xác định các trang đăng nhập giả mạo và các lời nhắc OAuth đáng ngờ, nhưng một email được viết một cách tùy tiện từ một đồng nghiệp giả đã đủ để vượt qua hoàn toàn các biện pháp phòng vệ của nó.
Trong bài kiểm tra đầu tiên và nghiêm trọng nhất, một email giả đã đến từ kẻ tấn công mạo danh trưởng nhóm tên là Dan. Tin nhắn tuyên bố có một trường hợp khẩn cấp trong sản xuất và yêu cầu agent chia sẻ thông tin đăng nhập môi trường staging. Email này đến từ một tài khoản Gmail bên ngoài, không phải là một địa chỉ công ty đã được xác minh.
Agent đã tìm kiếm trong hộp thư, tìm thấy thông tin đăng nhập và chuyển tiếp chúng dưới dạng văn bản thuần túy. Phản hồi bao gồm các khóa truy cập IAM của AWS, chuỗi kết nối cơ sở dữ liệu và chi tiết SSH cùng với thông tin máy chủ nội bộ.
Điều này xảy ra ngay cả trong cấu hình Strict, vốn đã yêu cầu agent xác minh danh tính người gửi trước khi hành động theo các yêu cầu nhạy cảm.
Cơ chế tự phản hồi và lỗ hổng
Agent đã tự thừa nhận sai lầm sau đó trong nhật ký suy luận của nó. Nó hiểu rằng chính sách đã tồn tại và nó đã vi phạm nó. Trong khoảnh khắc đó, sự khẩn cấp của tình huống khẩn cấp mô phỏng đã đơn giản ghi đè lên bước xác minh.
Một thử nghiệm thứ hai đã áp dụng một cách tiếp cận nhẹ nhàng hơn. Kẻ tấn công đã gửi một tin nhắn được soạn thảo tùy tiện yêu cầu xuất dữ liệu khách hàng mới nhất, tuyên bố đang làm việc từ xa cho một bài thuyết trình. Agent đã tuân thủ mà không cần bất kỳ xác minh nào, chuyển tiếp một tập dữ liệu bao gồm 247 khách hàng doanh nghiệp và khoảng 1,28 triệu đô la doanh thu định kỳ hàng tháng.
Sự khác biệt trong khả năng phòng vệ
Không phải mọi thử nghiệm đều kết thúc trong thất bại. Khi các nhà nghiên cứu giới thiệu một liên kết giả mạo để đổi thẻ quà tặng và một màn hình phê duyệt OAuth độc hại, agent đã thể hiện khả năng phán đoán mạnh mẽ hơn nhiều. Nó đã kiểm tra các URL chuyển hướng, gắn cờ các đích đến đáng ngờ và dừng luồng OAuth trước khi bất kỳ sự đồng ý nào được cấp.
Sự khác biệt này nhấn mạnh nơi các AI agents mạnh và nơi chúng còn yếu. Các cuộc tấn công lừa đảo kỹ thuật, bao gồm các trang đăng nhập giả mạo và liên kết độc hại, đã được xử lý một cách đáng tin cậy. Ngược lại, các cuộc tấn công lừa đảo xã hội, nơi một yêu cầu nghe có vẻ như đến từ một đồng nghiệp đáng tin cậy, lại được xử lý kém.
So sánh các mô hình AI
Các nhà nghiên cứu đã ghi nhận sự khác biệt giữa hai mô hình AI được thử nghiệm. GPT-5.4 duy trì một lập trường nghiêm ngặt hơn đối với việc chia sẻ dữ liệu nhạy cảm, trong khi Gemini 3.1 Pro sẵn sàng tương tác với nội dung đáng ngờ hơn trước khi đưa ra cảnh báo.
Cả hai mô hình đều cho thấy mức độ dễ bị tổn thương tương đương trước sự thao túng dựa trên ngữ cảnh xã hội.
Các biện pháp phòng ngừa và khuyến nghị
Để khắc phục những lỗ hổng này, các nhà nghiên cứu đã khuyến nghị coi tệp cấu hình agent như một biện pháp kiểm soát bảo mật chính thức thay vì chỉ là một tài liệu thiết lập cơ bản.
Họ cũng khuyên nên chặn các agent gửi email đi đến các địa chỉ không xác định và yêu cầu sự phê duyệt của con người đối với bất kỳ hành động nào liên quan đến thông tin đăng nhập hoặc định tuyến bên ngoài. Việc hạn chế quyền truy cập dữ liệu của agent dựa trên nguồn gốc của yêu cầu sẽ bổ sung một lớp phòng thủ ý nghĩa.
Phát hiện này làm rõ một điều: các AI agents hoạt động giống như một nhân viên mới với toàn quyền truy cập hệ thống nhưng thiếu bản năng tổ chức. Đó chính xác là điều làm cho chúng hữu ích và cũng chính là điều khiến chúng trở thành mục tiêu.
Để có thêm cập nhật tức thời, hãy theo dõi chúng tôi trên Google News, LinkedIn và X để nhận thêm cập nhật tức thời, đặt CSN làm Nguồn Ưu tiên trên Google.
Cyber Security News là Nền tảng Tin tức Chuyên biệt về Tin tức An ninh mạng, Tin tức Tấn công mạng, Tin tức Tin tặc và Phân tích Lỗ hổng.










