Phát hiện 12.000 API Keys và Mật Khẩu Bị Rò Rỉ
Bài viết từ The Hacker News đề cập đến việc phát hiện khoảng 12.000 API keys và mật khẩu đang còn hoạt động được công khai trong các bộ dữ liệu dùng để huấn luyện các mô hình ngôn ngữ lớn (LLMs). Dưới đây là những điểm chính từ bài viết:
- Phát hiện: Các nhà nghiên cứu từ Truffle Security đã quét bộ dữ liệu Common Crawl tháng 12 năm 2024, bao gồm 2,67 tỷ trang web từ 47,5 triệu máy chủ, và xác định được 11.908 bí mật đang hoạt động được xác minh.
- Thông tin xác thực bị rò rỉ: Bộ dữ liệu chứa một lượng lớn thông tin xác thực bị rò rỉ, với 2,76 triệu trang web có thông tin xác thực bị lộ. Điều này bao gồm những rủi ro cao như khóa AWS root trong HTML phía trước và 17 webhook Slack duy nhất được mã hóa cứng vào tính năng chat của một trang web.
- Sử dụng lại thông tin xác thực: Nghiên cứu cho thấy 63% số khóa bị rò rỉ được sử dụng lại trên nhiều miền khác nhau, với một API key tái sử dụng đến 57.029 lần trên 1.871 miền con.
- Ảnh hưởng đến LLMs: Kết quả nghiên cứu nhấn mạnh cách mà các mô hình AI được huấn luyện trên những bản sao internet không được lọc có nguy cơ tiếp thu và tái tạo những mẫu lập trình không an toàn, chẳng hạn như việc mã hóa trực tiếp thông tin xác thực vào mã nguồn.
- Biện pháp khắc phục: Truffle Security khuyến nghị tích hợp các rào cản an ninh vào các công cụ lập trình AI, mở rộng chương trình quét bí mật để bao gồm dữ liệu web lưu trữ, và áp dụng các kỹ thuật Constitutional AI để xác định các mô hình theo các phương pháp bảo mật tốt nhất.
- Rủi ro LLMJacking: Việc lộ những bí mật này làm tăng nguy cơ lạm dụng thông tin xác thực trong các chiến dịch lừa đảo, vi phạm dữ liệu, và giả mạo thương hiệu. Ngoài ra, nó cũng nhấn mạnh xu hướng ngày càng tăng của LLMJacking, nơi mà những kẻ tấn công nhắm vào danh tính máy móc có quyền truy cập vào các LLM và lạm dụng quyền truy cập này hoặc bán nó cho các bên thứ ba.










