Pentest-ai-agents: penetration testing toàn diện và nguy hiểm

pentest-ai-agents là một toolkit mã nguồn mở đang được thiết kế lại theo hướng penetration testing workflow dựa trên AI, chuyển Anthropic’s Claude Code thành một trợ lý nghiên cứu an ninh tấn công chuyên biệt với 28 subagents theo từng miền kỹ thuật.

Nội dung

Kiến trúc pentest-ai-agents trong quy trình penetration testing

Phân tuyến tác vụ theo subagent

penetst-ai-agents và mô hình thực thi hai tầng

Ví dụ nhóm công cụ được gắn với Tier 2

Triển khai pentest-ai-agents và đồng bộ subagent

Quản lý kết quả với SQLite và báo cáo CVSS

Tích hợp môi trường cục bộ và MCP server

Điểm kỹ thuật nổi bật của pentest-ai-agents

Nhóm công cụ được nhắc tới trong hệ sinh thái

Kiến trúc pentest-ai-agents trong quy trình penetration testing

Dự án được phát hành trên GitHub bởi nhà nghiên cứu bảo mật 0xSteph. Thay vì dùng một mô hình AI tổng quát cho mọi tác vụ, hệ thống phân phối truy vấn đến đúng tác nhân chuyên môn phù hợp với từng giai đoạn của penetration testing.

Phạm vi bao phủ gồm reconnaissance, kiểm thử web application, tấn công Active Directory, cloud security, mobile pentesting, tấn công wireless, social engineering, exploit chaining, detection engineering, forensics, phân tích malware và tạo báo cáo.

Thông tin dự án có thể tham khảo thêm tại GitHub repository.

Phân tuyến tác vụ theo subagent

Cơ chế của pentest-ai-agents không dựa vào một mô hình đơn lẻ. Mỗi câu hỏi sẽ được định tuyến đến subagent chuyên trách có ngữ cảnh kỹ thuật phù hợp, giúp giảm độ nhiễu khi xử lý các tác vụ chuyên sâu trong penetration testing workflow.

Các nhóm tác vụ được mô tả trong bộ công cụ này bao gồm:

Recon Advisor: hỗ trợ nmap, whois, whatweb.
Web Hunter: hỗ trợ ffuf, sqlmap, dalfox.
AD Attacker: hỗ trợ BloodHound, Impacket, CrackMapExec, Certipy.
Exploit Chainer: hỗ trợ xâu chuỗi khai thác.
PoC Validator: xác thực bằng chứng khai thác.
Business Logic Hunter: hỗ trợ phát hiện lỗi logic nghiệp vụ.

penetst-ai-agents và mô hình thực thi hai tầng

Toolkit này giới thiệu mô hình thực thi hai tầng nhằm cân bằng giữa an toàn và tính linh hoạt trong penetration testing.

Tier 1 hoạt động ở chế độ tư vấn. Người dùng dán kết quả công cụ và nhận lại phân tích ưu tiên, hướng dẫn phương pháp, cùng lệnh tiếp theo được đề xuất. Mô hình này phù hợp khi cần kiểm tra, diễn giải và lập kế hoạch trước khi thao tác trực tiếp.

Tier 2 đi xa hơn bằng cách soạn và thực thi lệnh trực tiếp trong phạm vi đã khai báo và được phép. Claude Code hiển thị từng lệnh để người dùng phê duyệt trước khi chạy, giúp duy trì kiểm soát trong quá trình xử lý tác vụ remote.

Ví dụ nhóm công cụ được gắn với Tier 2

Recon Advisor: nmap, whois, whatweb.
Web Hunter: ffuf, sqlmap, dalfox.
AD Attacker: BloodHound, Impacket, CrackMapExec, Certipy.
Exploit Chainer, PoC Validator, Business Logic Hunter.

Tất cả hành động tấn công trong penetration testing workflow đều được ánh xạ với định danh MITRE ATT&CK và đi kèm ngữ cảnh phòng thủ.

Triển khai pentest-ai-agents và đồng bộ subagent

Việc thiết lập được mô tả là đơn giản, không cần server riêng, không phụ thuộc ngoài, và không đòi hỏi cấu hình phức tạp. Một lệnh duy nhất sẽ clone repository, sao chép toàn bộ 28 agent files vào ~/.claude/agents/, sau đó thoát sạch.

install.sh

Script được mô tả là idempotent, nghĩa là có thể chạy lại an toàn để cập nhật các agent hiện có mà không làm hỏng cấu hình trước đó.

Dự án cũng hỗ trợ tùy chọn triển khai theo phạm vi dự án với –project và chế độ –global –lite để tối ưu token. Ở chế độ này, các advisory agents chạy trên Claude Haiku nhằm giảm mức tiêu thụ tài nguyên.

Quản lý kết quả với SQLite và báo cáo CVSS

pentest-ai-agents tích hợp cơ sở dữ liệu kết quả dựa trên SQLite thông qua findings.sh. Cơ chế này lưu dữ liệu đánh giá qua nhiều phiên Claude Code, phù hợp cho chiến dịch kéo dài nhiều ngày và cần bàn giao liên tục.

Khi findings.sh có trong system PATH, các Tier 2 agents sẽ tự động ghi nhận phát hiện vào cơ sở dữ liệu. Từ đó, Report Generator có thể tạo báo cáo pentest với executive summary, chấm điểm CVSS và lộ trình khắc phục.

Tích hợp môi trường cục bộ và MCP server

Với môi trường air-gapped hoặc yêu cầu riêng tư cao, các agent có thể được chuyển đổi thành OpenCode custom commands tương thích với Ollama, LM Studio hoặc mô hình cục bộ khác thông qua script opencode-setup.sh.

Hệ sinh thái còn có một MCP server tên pentest-ai, bổ sung hơn 150 tool wrappers, hỗ trợ autonomous exploit chaining và tích hợp CI/CD pipeline cho Claude Desktop, Cursor và VS Code Copilot.

Trong bối cảnh penetration testing, việc phân tách rõ ràng giữa agent tư vấn, agent thực thi và kho lưu trữ kết quả giúp chuẩn hóa quy trình xử lý, đặc biệt khi cần theo dõi findings, CVSS, và đối chiếu với MITRE ATT&CK.

Điểm kỹ thuật nổi bật của pentest-ai-agents

28 subagents chuyên biệt cho từng giai đoạn penetration testing.
Định tuyến truy vấn theo miền kỹ thuật thay vì dùng mô hình tổng quát.
Mô hình thực thi Tier 1 và Tier 2 có kiểm soát.
Tích hợp SQLite-backed findings database để lưu trữ phát hiện dài hạn.
Hỗ trợ báo cáo với CVSS và khuyến nghị khắc phục.
Chuyển đổi sang môi trường cục bộ qua OpenCode và Ollama.

Nhóm công cụ được nhắc tới trong hệ sinh thái

nmap, whois, whatweb
ffuf, sqlmap, dalfox
BloodHound, Impacket, CrackMapExec, Certipy
Claude Code, Claude Haiku, Ollama, LM Studio

pentest-ai-agents là một ví dụ về cách AI đang được áp dụng trực tiếp vào penetration testing workflow, với các agent chuyên sâu, cơ chế thực thi có kiểm soát và khả năng lưu trữ phát hiện phục vụ phân tích dài hạn. Các thành phần như Tier 2, SQLite findings database, CVSS và MITRE ATT&CK cho thấy bộ công cụ này được thiết kế để hỗ trợ toàn bộ chu trình đánh giá thay vì chỉ xử lý từng lệnh riêng lẻ.