Pentest Agent Suite là một khung lỗ hổng CVE và bug bounty được mã nguồn mở, tích hợp 50 agent bảo mật, 26 slash commands, 19 công cụ CLI và trình cài đặt đa IDE cho các nền tảng AI coding như Claude Code, OpenAI Codex, Google Gemini, Cursor, Windsurf, VS Code Copilot và OpenClaw.
Kiến trúc của pentest agent suite
Dự án được công bố trên GitHub bởi nghiên cứu viên H-mmer, đóng gói như một nền tảng bảo mật thống nhất với persistent memory, tích hợp trực tiếp với nền tảng bug bounty và công cụ tìm kiếm writeup ngữ nghĩa dựa trên FAISS. Mục tiêu là giúp agent truy vấn lại tri thức đã có theo thời gian thực trước khi kiểm tra một nhóm lỗ hổng cụ thể.
Cấu trúc của Pentest Agent Suite chia thành ba lớp chính: 50 agent chuyên biệt, hạ tầng dual-server MCP (Model Context Protocol) và một thư viện quy tắc toàn diện. Khung này được thiết kế để chuẩn hóa luồng kiểm tra, giảm trùng lặp khi đánh giá lỗ hổng CVE, và hỗ trợ tái sử dụng kỹ thuật khai thác đã ghi nhận.
Hạ tầng MCP cho nền tảng bug bounty
Server MCP dành cho bounty platform tích hợp 16 chương trình, bao gồm HackerOne, Bugcrowd, Intigriti, Immunefi và YesWeHack. Hệ thống cung cấp các công cụ như list_platforms, get_program_scope, sync_program, draft_report và submit_report.
Phần tìm kiếm writeup MCP tự động nhận diện ba chế độ: FAISS semantic search, SQLite keyword search và cơ chế fallback cục bộ không phụ thuộc phần cứng, truy vấn trực tiếp tệp rules/payloads.md. Tài nguyên này có 2.605 dòng, bao phủ nhiều kỹ thuật như XSS, SSRF, SQLi, IDOR, OAuth, SSTI, JWT, LFI, prototype pollution, NoSQLi và các mẫu tấn công DeFi.
Tham khảo thêm về Model Context Protocol server để đối chiếu cách khung này tổ chức các dịch vụ MCP.
Quy trình kiểm tra và đánh giá lỗ hổng CVE
Điểm nổi bật của Pentest Agent Suite là 7-Question Gate, một quy trình xác thực được chạy bởi validator agent cho mọi phát hiện. Nếu bất kỳ câu trả lời nào là “NO”, hệ thống sẽ tự động đưa ra một trong ba trạng thái: KILL, DOWNGRADE hoặc CHAIN REQUIRED.
Không có phát hiện nào được phép đi đến /submit nếu chưa qua /validate với trạng thái PASS và điểm chất lượng 7 trở lên. Quy tắc này được áp đặt cứng trong các lệnh /report và /submit, nhằm hạn chế báo cáo sai lệch trong quá trình phân tích cảnh báo CVE.
Chế độ autopilot và kiểm soát độ sâu khai thác
Lệnh /autopilot triển khai một cơ chế chống kiểm tra nông, bắt buộc dùng multi-layer stacked-encoding trong mọi lần thử payload. Hệ thống không coi bề mặt tấn công đã cạn cho đến khi hoàn thành toàn bộ exhaustion matrix.
Cơ chế này có thể cấu hình qua các checkpoint mode: –paranoid, –normal hoặc –yolo. Trong bối cảnh đánh giá lỗ hổng zero-day hoặc zero-day vulnerability, cách tiếp cận này giúp chuẩn hóa vòng lặp thử nghiệm trước khi kết luận phạm vi ảnh hưởng.
Brain bền vững, giới hạn lỗi và theo dõi chi phí
Tệp brain.py lưu vết từng endpoint theo từng mục tiêu, áp dụng logic circuit-breaker và đồng bộ hóa tri thức giữa các lần kiểm tra bằng incremental hash-based diffing. Nếu phát sinh 5 lần liên tiếp phản hồi 403/429, hệ thống tự động backoff trong 60 giây.
Luồng kiểm soát chi phí vận hành được triển khai qua CC hooks. Sự kiện SubagentStop kích hoạt cost_hook.py, ghi tên agent và chi phí phiên làm việc vào cost-tracking.json, đồng thời hiển thị mức tiêu tốn trực tiếp trên statusline.
Kiểm soát phạm vi và chính sách CVSS
Một PreToolUse scope hook trong scope_hook.py so khớp mọi lệnh Bash với scope.yaml bằng mẫu chính xác và wildcard, chặn thao tác ngoài phạm vi trước khi công cụ được gọi. Đây là lớp kiểm soát quan trọng để giảm rủi ro bảo mật khi chạy thử nghiệm tự động.
Điểm số CVSS cũng được ép buộc bằng mã máy. Tệp cvss_version_guard.py yêu cầu CVSS 3.1 cho HackerOne và CVSS 4.0 cho tất cả nền tảng còn lại. Quy tắc này giúp đồng nhất cách định lượng mức độ nghiêm trọng của lỗ hổng CVE trong báo cáo.
Yêu cầu môi trường và công cụ CLI
Hệ thống yêu cầu Python 3.10+, uv và các công cụ recon tiêu chuẩn như nmap, httpx, subfinder, nuclei, ffuf, katana và sqlmap.
python3 -m tools.installer
Lệnh cài đặt trên sẽ tạo cấu hình gốc theo định dạng riêng của từng công cụ và ghi vào đúng thư mục IDE. Với các IDE không hỗ trợ subagent gốc như Cursor, Windsurf và OpenClaw, nội dung được chuyển thành skill files và rules, đồng thời loại bỏ văn phong đặc thù của Claude và đổi biến đường dẫn sang tham chiếu tuyệt đối.
Danh mục agent và các kỹ năng chuyên sâu
Danh sách agent bao gồm 19 chuyên gia cho bug bounty như xss-hunter, sqli-hunter, ssrf-hunter, rce-hunter, oauth-hunter và llm-ai-hunter. Ngoài ra còn có một pipeline 8 agent SAST, các agent hạ tầng và recon như cloud-recon, js-analyzer, graphql-audit, waf-profiler, cùng một web3-auditor cho Solidity và mẫu tấn công DeFi.
Nhóm kỹ năng chuyên sâu đi kèm các hunter được rút ra từ hàng trăm báo cáo thực tế. Một số kỹ năng đáng chú ý gồm hunt-rce với các mẫu như RSC CVE-2025-55182, runc Leaky Vessels và BentoML pickle; hunt-xss với DOMPurify mXSS và n8n MCP OAuth XSS GHSA-537j-gqpc-p7fq; cùng hunt-llm-ai căn chỉnh theo OWASP LLM Top 10 v2025 và Agentic AI Top 10.
Luồng lưu trữ tri thức và tìm kiếm writeup
Thành phần rag-builder/utility có thể xây dựng local FAISS writeup index từ danh sách hạt giống 146 repository, bao phủ kho CTF, báo cáo bug bounty và bộ payload. Các thao tác mang tính phá hoại đều bị khóa sau cờ –execute, đảm bảo chỉ chạy khi được bật rõ ràng.
Trong thực tế vận hành, lớp tìm kiếm writeup và thư viện quy tắc giúp agent đối chiếu nhanh dấu hiệu tương đồng của lỗ hổng CVE, kiểm tra mẫu payload hiện có, và hạn chế bỏ sót các biến thể khai thác đã từng được ghi nhận trong tin bảo mật mới nhất.
Trạng thái phát hành và tham chiếu nguồn
Dự án được phát hành công khai trên GitHub tại Pentest Agent Suite và được cấp phép chỉ dành cho kiểm thử bảo mật được ủy quyền theo nguyên tắc responsible disclosure.
Từ góc nhìn kỹ thuật, Pentest Agent Suite tập trung vào tự động hóa điều phối, chuẩn hóa mức độ nghiêm trọng theo CVSS, kiểm soát phạm vi, và đồng bộ tri thức khai thác liên quan đến lỗ hổng CVE trong một pipeline thống nhất.










