Prompt Injection ChatGPhish: Nguy hiểm trên trình duyệt

ChatGPhish là một kỹ thuật prompt injection trên trình duyệt, biến bất kỳ trang web nào thành bề mặt phát tán phishing bằng cách lợi dụng tính năng tóm tắt trang của ChatGPT. Kẻ tấn công có thể chèn liên kết giả mạo, cảnh báo bảo mật giả và mã QR trực tiếp vào giao diện ChatGPT mà người dùng tin cậy.

Nghiên cứu này do Permiso công bố, mô tả một biến thể mở rộng từ logic chuyển giao niềm tin từng được quan sát trong các hệ thống AI tóm tắt nội dung. Điểm đáng chú ý của ChatGPhish là nó không bị giới hạn trong email, mà tận dụng chính trang web mà người dùng mở trong trình duyệt.

Nội dung

Phương thức tấn công prompt injection trên trình duyệt

Các primitive tấn công chính

Ảnh hưởng bảo mật và bề mặt khai thác

Quy trình báo cáo và trạng thái công bố

Điều kiện khai thác trong môi trường AI tóm tắt nội dung

Điểm yếu kỹ thuật liên quan

Biện pháp giảm thiểu

Liên hệ với cảnh báo prompt injection theo OWASP

Phương thức tấn công prompt injection trên trình duyệt

Bất kỳ trang nào người dùng yêu cầu ChatGPT tóm tắt đều có thể trở thành kênh tấn công, bao gồm README trên GitHub, tài liệu kỹ thuật, bài viết blog hoặc bảng điều khiển SaaS. Chỉ cần gắn một payload lệnh nhỏ vào trang công khai, kẻ tấn công không cần xác thực vẫn có thể ảnh hưởng đến cách ChatGPT cấu trúc và hiển thị nội dung trả lời.

Vì vậy, prompt injection không chỉ là thao tác làm sai lệch kết quả tóm tắt. Trong bối cảnh ChatGPhish, phần phản hồi sau khi bị thao túng sẽ xuất hiện ngay trong cửa sổ ChatGPT, mang cùng kiểu trình bày với phản hồi hợp lệ của trợ lý AI.

Các primitive tấn công chính

Do bộ dựng kết xuất của chatgpt.com tin cậy Markdown links và image URLs xuất phát từ nội dung bên thứ ba được tóm tắt, ba primitive tấn công có thể xuất hiện:

Hiển thị liên kết độc hại trong phần trả lời của AI.
Chèn hình ảnh hoặc mã QR dẫn người dùng đến điểm cuối giả mạo.
Gợi ý thao tác dẫn đến rò rỉ dữ liệu hoặc chuyển hướng sang trang thu thập thông tin.

OWASP LLM01:2025 nêu rõ rủi ro cốt lõi của prompt injection là mô hình không thể phân biệt đáng tin cậy giữa chỉ dẫn hợp lệ và nội dung do kẻ tấn công chèn vào dữ liệu truy xuất. Đây là nền tảng khiến ChatGPhish trở nên nguy hiểm.

Ảnh hưởng bảo mật và bề mặt khai thác

Điểm rủi ro lớn nhất không nằm ở payload đầu vào, mà ở nơi đầu ra được hiển thị. Nội dung bị chèn sẽ nằm trong cửa sổ phản hồi của ChatGPT, được định dạng như câu trả lời hợp lệ, kèm cảnh báo, liên kết có thể bấm và hình ảnh nội tuyến.

Cơ chế same-origin policy của trình duyệt không còn hữu ích trong trường hợp này, vì trợ lý AI hoạt động bằng ngữ cảnh đã xác thực của người dùng. Điều đó làm cho ranh giới bảo mật web truyền thống trở nên kém hiệu lực trước prompt injection kiểu này.

Theo báo cáo nghiên cứu, tín hiệu lạm dụng có thể dẫn đến các tác động sau:

Phishing thông qua liên kết hiển thị trong phản hồi AI.
Device pivoting khi người dùng bị dẫn sang bước tương tác tiếp theo.
Passive reconnaissance qua mã QR hoặc liên kết theo dõi.
Data exfiltration nếu người dùng bị dụ nhập lại thông tin vào trang giả mạo.

Quy trình báo cáo và trạng thái công bố

Permiso đã gửi báo cáo lỗ hổng ban đầu qua Bugcrowd vào ngày 29/04/2026, với mô tả: “Untrusted Markdown Rendering Leads to XSS, Phishing, and Data Exfiltration.” Phản hồi ban đầu cho biết vấn đề chưa thể tái hiện.

Đến ngày 01/05/2026, bản gửi lại kèm các bước proof-of-concept mở rộng đã bị phân loại là trùng với một báo cáo trước đó. Sau trao đổi bổ sung vào ngày 07/05/2026 để làm rõ tác động về phishing, QR code và theo dõi thụ động, nghiên cứu được công bố công khai vào ngày 29/05/2026.

Tham chiếu công khai liên quan đến báo cáo có thể xem tại: https://permiso.io/blog/chatgpt-markdown-rendering-vulnerability

Điều kiện khai thác trong môi trường AI tóm tắt nội dung

ChatGPhish dựa trên một giả định đơn giản: nếu nội dung web do kẻ tấn công kiểm soát có thể ảnh hưởng đến đầu ra của AI mà không có nhãn nguồn rõ ràng, thì chính trình duyệt trở thành kênh phát tán thực tế cho phishing và reconnaissance.

Kịch bản này đặc biệt đáng chú ý với các hệ thống AI tích hợp trực tiếp vào trình duyệt, nơi người dùng thường coi kết quả do trợ lý sinh ra là đáng tin cậy hơn nội dung gốc trên trang.

Điểm yếu kỹ thuật liên quan

Thiếu phân tách nguồn giữa nội dung truy xuất và nội dung render của trợ lý.
Markdown rendering tin cậy vào dữ liệu từ bên thứ ba.
Thiếu origin labeling cho liên kết, ảnh và khối nội dung được suy diễn từ trang ngoài.
Hiển thị đồng nhất giữa phản hồi hợp lệ và nội dung bị chèn.

Biện pháp giảm thiểu

Cho đến khi có cơ chế tách bạch rõ ràng giữa nội dung web truy xuất và đầu ra render của trợ lý, các đội an toàn thông tin cần áp dụng các biện pháp sau để giảm rủi ro bảo mật từ prompt injection:

Gắn nhãn rõ nguồn gốc cho mọi liên kết, ảnh và nội dung được sinh từ dữ liệu bên ngoài.
Vô hiệu hóa hoặc hạn chế render Markdown từ nội dung chưa được xác minh.
Kiểm soát chặt các thành phần có thể bấm trong phần phản hồi AI.
Tách lớp hiển thị giữa dữ liệu truy xuất và văn bản do mô hình sinh ra.
Rà soát các luồng có thể dẫn tới phishing, mã QR và nội dung chuyển hướng.

Liên hệ với cảnh báo prompt injection theo OWASP

Theo OWASP LLM01:2025, prompt injection là một trong những rủi ro cốt lõi của hệ thống LLM tích hợp truy xuất dữ liệu. ChatGPhish cho thấy khi lớp render và lớp nguồn không được tách biệt, lỗ hổng zero-day về thiết kế có thể xuất hiện ngay trong giao diện mà người dùng tưởng là an toàn.

Trong bối cảnh cảnh báo CVE và lỗ hổng CVE liên quan đến ứng dụng AI ngày càng tăng, các hệ thống tóm tắt nội dung cần xem xét lại cách xử lý Markdown, URL và hình ảnh từ dữ liệu ngoài. Tham khảo thêm mục kiểm tra liên quan tại NVD.

Nếu không có cơ chế kiểm soát nguồn và phân tách hiển thị, prompt injection có thể tiếp tục mở rộng từ sai lệch nội dung sang thông tin rò rỉ, đánh cắp dữ liệu và thao túng người dùng ngay trong phiên làm việc AI.