Lỗ hổng nghiêm trọng: Prompt Injection tấn công trợ lý AI coding

Các công cụ lập trình được hỗ trợ bởi AI đang nhanh chóng thay đổi cách các nhà phát triển xây dựng và triển khai phần mềm. Tuy nhiên, khi các công cụ này được tích hợp vào quy trình phát triển hàng ngày, chúng cũng mở ra những cánh cửa mới cho kẻ tấn công. Một lỗ hổng bảo mật nghiêm trọng đã được phát hiện trong một trợ lý mã hóa AI phổ biến, cho thấy mức độ rủi ro tiềm ẩn.

Nội dung

Mối Đe Dọa Tới Lỗ Hổng Bảo Mật Trong AI Coding Assistants

Phân Tích Lỗi Kỹ Thuật

Cơ Chế Tấn Công: Prompt Injection

MITRE ATLAS Techniques và Kẻ Tấn Công

Biện Pháp Phòng Ngừa

Hardening System Prompt

Mối Đe Dọa Tới Lỗ Hổng Bảo Mật Trong AI Coding Assistants

Các nhà nghiên cứu đã phát hiện ra rằng các quy trình GitHub Actions được hỗ trợ bởi AI có thể bị thao túng thông qua các đầu vào văn bản đơn giản, chẳng hạn như bình luận về issue hoặc mô tả pull request.

Do các đầu vào này được xử lý bởi một tác nhân AI, một thông điệp được tạo cẩn thận có thể âm thầm hướng tác nhân thực hiện các hành động không mong muốn.

Microsoft Threat Intelligence đã xác định vấn đề này trong Claude Code GitHub Action của Anthropic. Tác nhân AI có thể bị lừa để đọc các tệp môi trường nhạy cảm bên trong CI/CD runner. Phát hiện này đã được Microsoft chia sẻ trong một báo cáo, được cung cấp cho Cyber Security News.

Mối đe dọa này nhắm vào các hệ thống bị tấn công thông qua việc lợi dụng cách thức xử lý tệp và thực thi lệnh của công cụ.

Phân Tích Lỗi Kỹ Thuật

Cốt lõi của vấn đề nằm ở sự khác biệt trong cách công cụ xử lý quyền truy cập tệp so với thực thi lệnh. Mặc dù công cụ Bash chạy trong một môi trường sandbox an toàn, loại bỏ các biến môi trường, nhưng công cụ Read lại không tuân theo các quy tắc tương tự.

Sự không nhất quán này đã tạo ra một đường dẫn trực tiếp cho kẻ tấn công để lấy cắp các thông tin xác thực đáng lẽ không bao giờ được phép rời khỏi hệ thống.

Hậu quả có thể nghiêm trọng đối với bất kỳ nhóm nào dựa vào các quy trình AI tự động hóa trong pipeline phát triển của họ.

Một API key bị lộ có thể cho phép kẻ tấn công giả mạo quy trình, tiêu tốn tài nguyên hoặc giành quyền truy cập sâu hơn vào các hệ thống được kết nối.

Vấn đề này đã được báo cáo một cách có trách nhiệm cho Anthropic, và họ đã phát hành bản sửa lỗi trong phiên bản Claude Code 2.1.128 vào ngày 5 tháng 5 năm 2026.

Cơ Chế Tấn Công: Prompt Injection

Lỗ hổng này hoạt động thông qua kỹ thuật mà các nhà nghiên cứu gọi là prompt injection. Kẻ tấn công sẽ đặt một chỉ dẫn ẩn bên trong một GitHub issue hoặc pull request, được viết theo cách trông có vẻ vô hại đối với người xem xét nhưng lại được mô hình AI đọc văn bản thô coi là một lệnh.

Trong các thử nghiệm do nhóm của Microsoft thực hiện, một prompt độc hại đã hướng dẫn tác nhân thực hiện một “đánh giá tuân thủ” (compliance review). Cách diễn đạt này là có chủ đích.

Nó tránh kích hoạt các bộ lọc an toàn tích hợp của Claude, vốn chặn các yêu cầu rõ ràng để in API key. Bằng cách ngụy trang yêu cầu và yêu cầu mô hình cắt bỏ bảy ký tự đầu tiên của kết quả, kẻ tấn công đã vượt qua cả lớp từ chối của AI và GitHub’s Secret Scanner.

Công cụ Read, sau khi bị thao túng, đã truy cập trực tiếp vào /proc/self/environ trong bộ nhớ tiến trình của runner. Thao tác này trả về ANTHROPIC_API_KEY chưa được làm sạch cùng với các thông tin xác thực khác có trong môi trường.

Từ đó, kẻ tấn công có thể tái tạo lại toàn bộ key và trích xuất nó thông qua các kênh mà quy trình cho phép, bao gồm các yêu cầu web, bình luận issue hoặc log của action.

MITRE ATLAS Techniques và Kẻ Tấn Công

Nhóm của Microsoft đã chỉ ra rằng chuỗi tấn công này tương ứng với một số kỹ thuật MITRE ATLAS, bao gồm LLM Prompt Injection, AI Agent Tool Invocation, LLM Jailbreak và AI Agent Tool Credential Harvesting. Toàn bộ mã khai thác không yêu cầu quyền truy cập đặc biệt, chỉ cần khả năng mở một issue hoặc gửi một pull request.

Biện Pháp Phòng Ngừa

Nhóm của Microsoft đã đưa ra các bước thực tế cho người phòng thủ. Nguyên tắc quan trọng nhất họ giới thiệu là “Quy tắc Hai của Tác nhân” (Agents Rule of Two).

Một quy trình AI không bao giờ nên kết hợp cả ba yếu tố sau cùng một lúc: xử lý đầu vào không đáng tin cậy, truy cập các bí mật nhạy cảm và thực hiện hành động bên ngoài hoặc sửa đổi trạng thái.

Các nhóm nên áp dụng các biện pháp kiểm soát quyền tối thiểu nghiêm ngặt cho mọi token và API key được kết nối với một quy trình. Mỗi key nên chỉ giới hạn trong phạm vi những gì quy trình cụ thể đó cần và việc sử dụng nên được giám sát ở cấp nhà cung cấp để phát hiện hoạt động bất thường.

Cảnh báo liên kết với các địa chỉ IP mới hoặc các lệnh gọi endpoint không mong muốn có thể cung cấp cho người phòng thủ cảnh báo sớm về mối đe dọa mạng tiềm ẩn.

Hardening System Prompt

Ở cấp độ prompt, Microsoft khuyến nghị củng cố system prompt để tác nhân hiểu rõ đâu là dữ liệu và đâu là chỉ dẫn.

Một system prompt được viết tốt nên nêu tên các bề mặt mà tác nhân đọc, chẳng hạn như phần thân issue hoặc diff pull request, và làm rõ rằng tất cả nội dung đó đều không đáng tin cậy.

Việc ghim tác nhân vào một tác vụ duy nhất, xác định rõ ràng sẽ giảm thiểu cơ hội bị chệch hướng bởi một payload được mã hóa khéo léo.

Để cập nhật các tin tức bảo mật mới nhất, vui lòng theo dõi chúng tôi trên Google News, LinkedIn và X.

Cyber Security News là một nền tảng tin tức chuyên biệt về tin tức an ninh mạng, tin tức tấn công mạng, tin tặc và phân tích lỗ hổng.