Tấn công AI: Điểm mù nghiêm trọng của trợ lý web

Một kỹ thuật tấn công mới đã được phát hiện, khai thác điểm mù cơ bản trong các trợ lý AI web. Kỹ thuật này lợi dụng sự khác biệt giữa những gì trình duyệt hiển thị cho người dùng và dữ liệu mà công cụ AI thực sự đọc từ mã HTML ẩn. Đây là một hình thức tấn công AI tinh vi, không yêu cầu lỗ hổng trình duyệt.

Chỉ cần một tệp font tùy chỉnh và CSS cơ bản, kẻ tấn công có thể âm thầm gửi các hướng dẫn độc hại đến người dùng, trong khi các kiểm tra an toàn của AI chỉ nhìn thấy nội dung vô hại.

Nội dung

Khai Thác Điểm Mù Của Trợ Lý AI Web

Cơ Chế Tấn Công Độc Đáo

Ví Dụ Thực Tế và Kết Quả Thử Nghiệm

Bản Chất Rủi Ro và Phản Hồi Từ Các Nhà Cung Cấp

Nguồn Gốc Lỗ Hổng

Phản Hồi Từ Ngành Công Nghiệp AI

Hậu Quả và Biện Pháp Khắc Phục Được Đề Xuất

Nguy Cơ Tức Thì Từ Cuộc Tấn Công AI

Kiến Nghị Tăng Cường Bảo Mật Cho AI

Khai Thác Điểm Mù Của Trợ Lý AI Web

Cơ Chế Tấn Công Độc Đáo

Cuộc tấn công, được thử nghiệm vào tháng 12 năm 2025, khai thác sự mất kết nối cấu trúc giữa văn bản DOM (Document Object Model) của một trang web và cách hiển thị trực quan của nó. Khi một trợ lý AI phân tích một trang web, nó sẽ phân tích cấu trúc HTML thô.

Tuy nhiên, trình duyệt lại hiển thị cùng một trang thông qua một quy trình trực quan, diễn giải các font chữ, CSS và ánh xạ glyph để tạo ra những gì người dùng thực sự nhìn thấy trên màn hình. Kẻ tấn công có thể vũ khí hóa khoảng trống giữa hai góc nhìn này.

Kỹ thuật này không yêu cầu JavaScript, bộ khai thác (exploit kit) hay lỗ hổng trình duyệt nào. Trình duyệt vẫn hoạt động chính xác như được thiết kế. Lỗi nằm ở các công cụ AI coi văn bản DOM là một biểu diễn hoàn chỉnh về những gì người dùng nhìn thấy, trong khi lớp hiển thị có thể mang một thông điệp hoàn toàn khác.

Ví Dụ Thực Tế và Kết Quả Thử Nghiệm

LayerX đã chứng minh điều này bằng cách xây dựng một trang thử nghiệm (proof-of-concept) xuất hiện trước khách truy cập như một trang web truyện fanfiction về trò chơi Bioshock. Ẩn dưới lớp vỏ đó là một font tùy chỉnh hoạt động như một bộ mã hóa thay thế trực quan.

Font chữ này được thiết kế để hiển thị văn bản HTML thông thường (fanfiction trò chơi điện tử) dưới dạng văn bản vô nghĩa 1-pixel, màu nền, không thể nhìn thấy đối với người dùng. Đồng thời, nó hiển thị một đoạn mã độc (payload) riêng biệt được mã hóa dưới dạng văn bản màu xanh lá cây, lớn, dễ đọc, thúc giục người dùng thực thi một reverse shell trên máy của họ.

Mọi trợ lý AI không có tác nhân (non-agentic AI assistant) được thử nghiệm, bao gồm ChatGPT, Claude, Copilot, Gemini, Grok, Perplexity và các công cụ khác, đều không phát hiện ra mối đe dọa này. Thay vào đó, chúng xác nhận trang web an toàn. Trong nhiều trường hợp, các trợ lý AI thậm chí còn khuyến khích người dùng làm theo các hướng dẫn độc hại trên màn hình. Điều này cho thấy rủi ro bảo mật nghiêm trọng trong việc phụ thuộc vào AI để đánh giá an toàn nội dung web.

Bản Chất Rủi Ro và Phản Hồi Từ Các Nhà Cung Cấp

Nguồn Gốc Lỗ Hổng

Lỗ hổng này không phải là một lỗi trong trình duyệt web, mà là một điểm yếu trong cách các công cụ AI xử lý và diễn giải thông tin từ các trang web. Các trợ lý AI thường chỉ đọc văn bản từ DOM, bỏ qua các yếu tố về kiểu dáng và hiển thị mà người dùng thực sự trải nghiệm.

Điều này tạo ra một khe hở cho kẻ tấn công thực hiện các hình thức tấn công AI dựa trên ẩn nội dung, một mối đe dọa mới đối với an ninh mạng hiện đại.

Phản Hồi Từ Ngành Công Nghiệp AI

LayerX đã tuân thủ các quy trình tiết lộ có trách nhiệm và báo cáo phát hiện này cho tất cả các nhà cung cấp AI lớn vào tháng 12 năm 2025. Các phản hồi cho thấy một lỗ hổng đáng lo ngại trong cách định nghĩa bảo mật AI:

Microsoft là nhà cung cấp duy nhất đã giải quyết đầy đủ vấn đề và tham gia vào toàn bộ quy trình tiết lộ.

Phản hồi hạn chế từ các nhà cung cấp khác cho thấy sự thiếu nhận thức hoặc ưu tiên đối với loại hình tấn công mới này, làm tăng nguy cơ an toàn thông tin cho người dùng.

Hậu Quả và Biện Pháp Khắc Phục Được Đề Xuất

Nguy Cơ Tức Thì Từ Cuộc Tấn Công AI

Nguy cơ tức thì nhất là tấn công lừa đảo (social engineering) có sự hỗ trợ của AI. Kẻ tấn công đánh lừa AI xác nhận một trang độc hại; chúng hiệu quả là mượn danh tiếng đáng tin cậy của AI để thao túng người dùng.

Khi các công cụ AI copilot và trợ lý trình duyệt ngày càng được nhúng sâu vào các quy trình bảo mật doanh nghiệp, các công cụ phân tích chỉ dựa trên văn bản này tạo ra các điểm mù mà kẻ tấn công có thể khai thác một cách đáng tin cậy.

Kiến Nghị Tăng Cường Bảo Mật Cho AI

LayerX khuyến nghị các nhà cung cấp AI cần áp dụng các biện pháp bảo mật nâng cao để đối phó với mối đe dọa này. Chi tiết về các khuyến nghị có thể được tìm thấy trên blog của LayerX: Poisoned Typeface: A Simple Font Rendering Poisons Every AI Assistant – And Only Microsoft Cares.

Cụ thể, LayerX đề xuất các hành động sau:

Thực hiện phân tích chế độ kép (dual-mode render-and-diff analysis), so sánh những gì AI đọc với những gì trình duyệt thực sự hiển thị.
Coi các font tùy chỉnh là bề mặt tấn công tiềm ẩn và tiến hành kiểm tra bảo mật nghiêm ngặt.
Quét tìm các kỹ thuật ẩn nội dung dựa trên CSS (chẳng hạn như độ mờ gần bằng 0 và văn bản khớp màu nền).
Quan trọng nhất, tránh đưa ra các phán quyết an toàn tự tin khi không thể xác minh đầy đủ ngữ cảnh hiển thị của trang.

Việc áp dụng các biện pháp này là cần thiết để cải thiện an ninh mạng và bảo vệ người dùng khỏi các phương thức tấn công AI mới nổi.