AI skill scanners từ các nền tảng như ClawHub, Cisco và Vercel đã bị qua mặt dễ dàng, cho phép các kỹ năng độc hại được tải lên và phân phối thông qua các thị trường công khai. Điều này tạo ra một mối đe dọa mạng nghiêm trọng, ảnh hưởng đến an ninh chuỗi cung ứng trong các hệ sinh thái tác nhân AI đang phát triển nhanh chóng.
Các hệ thống tác nhân AI ngày càng trở nên phức tạp, với “kỹ năng” đóng vai trò là các thành phần mô-đun tái sử dụng. Chúng có khả năng thực thi mã và định hình hành vi của mô hình AI. Sự phụ thuộc vào các kỹ năng bên ngoài tiềm ẩn những rủi ro bảo mật đáng kể, đặc biệt khi quá trình xác minh không được chặt chẽ.
Nghiên Cứu Chuyên Sâu về Kỹ Thuật Né Tránh Phát Hiện trong Hệ Sinh Thái AI
Nghiên cứu đột phá của Trail of Bits đã làm sáng tỏ khả năng kẻ tấn công né tránh các cơ chế phát hiện tiêu chuẩn. Chúng không cần đến các kỹ thuật khai thác nâng cao hoặc lỗ hổng zero-day phức tạp. Thay vào đó, kẻ tấn công tận dụng các phương pháp che giấu và đóng gói thông minh.
Những phát hiện này nhấn mạnh một điểm yếu cốt lõi: các công cụ quét hiện tại gặp khó khăn trong việc phân tích toàn diện và chính xác nội dung của các kỹ năng AI. Đây là một lỗ hổng đáng kể, tạo điều kiện cho các mối đe dọa mạng phát triển.
Che Giấu Mã Độc Bằng Cách Lợi Dụng Giới Hạn Quét
Trong một cuộc thử nghiệm đáng chú ý nhắm vào ClawHub, các nhà nghiên cứu đã chèn hơn 100.000 ký tự xuống dòng. Mục đích chính là đẩy mã độc vượt ra ngoài phạm vi kiểm tra hiệu quả của máy quét tự động.
Kỹ thuật đơn giản nhưng hiệu quả này đã gây ra việc cắt xén dữ liệu trong quy trình phân tích. Điều này cho phép logic độc hại vượt qua mà không bị phát hiện. Đồng thời, nó còn làm rối loạn các công cụ quét tích hợp, điển hình như Code Insight của VirusTotal, vốn dựa vào khả năng đọc mã nguồn rõ ràng.
Sự thành công của phương pháp này cho thấy nhiều công cụ quét có giới hạn về ngữ cảnh, số lượng dòng, hoặc kích thước tệp tối đa mà chúng có thể xử lý. Kẻ tấn công khai thác những giới hạn này để chèn mã không an toàn vào các khu vực không được kiểm tra, biến nó thành một mối đe dọa mạng khó lường.
Tàng Trữ Mã Độc Trong Định Dạng Tệp Khó Phân Tích
Các cuộc kiểm tra tiếp theo đối với công cụ quét kỹ năng mã nguồn mở của Cisco và các tích hợp skills.SH của Vercel đã làm lộ ra những điểm yếu tương tự. Các nền tảng này thường dựa vào sự kết hợp giữa phân tích tĩnh, khớp mẫu và kiểm tra nâng cao dựa trên LLM để phát hiện các bất thường.
Tuy nhiên, các chuyên gia của Trail of Bits đã phát hiện ra rằng những biện pháp phòng thủ này có thể bị qua mặt dễ dàng. Điều này xảy ra khi nội dung độc hại được ẩn dưới các định dạng tệp ít rõ ràng hơn. Ví dụ điển hình bao gồm bytecode Python đã biên dịch (.pyc) hoặc các tệp dựa trên kho lưu trữ nén như .docx, vốn không phải là định dạng mã nguồn trực tiếp.
Một cuộc tấn công được minh họa chi tiết liên quan đến một kỹ năng định dạng văn bản có vẻ hoàn toàn vô hại. Kỹ năng này thực tế đã nhúng bytecode Python đã biên dịch trước. Mặc dù mã nguồn hiển thị của kỹ năng không có bất kỳ dấu hiệu đáng ngờ nào, bytecode đã được thiết kế để bí mật trích xuất các biến môi trường nhạy cảm, mở đường cho khả năng đánh cắp dữ liệu tiềm tàng.
Do phần lớn các máy quét tập trung chủ yếu vào việc phân tích các tệp nguồn có thể đọc được bằng văn bản thuần túy, payload độc hại trong bytecode đã không bị phát hiện. Nó được phân loại là an toàn, gây ra một rủi ro bảo mật nghiêm trọng mà hệ thống không thể nhìn thấy trực tiếp. Đây là một thách thức lớn trong việc phát hiện tấn công tinh vi.
Đường Dẫn Thực Thi Gián Tiếp và Khả Năng Né Tránh Phát Hiện
Một kỹ thuật hiệu quả khác mà các nhà nghiên cứu đã chứng minh là sử dụng các đường dẫn thực thi gián tiếp. Thay vì chứa logic độc hại trực tiếp trong mã nguồn của kỹ năng, một kỹ năng được thiết kế để hướng dẫn tác nhân AI truy xuất các lệnh hoạt động từ một tài liệu bên ngoài. Tài liệu này sau đó chứa một tập lệnh độc hại ẩn.
Phương pháp này đã thành công trong việc bỏ qua cả phát hiện dựa trên chữ ký truyền thống lẫn suy luận nâng cao của các hệ thống LLM. Điều này xảy ra bởi vì hành vi độc hại không được phơi bày trực tiếp hoặc rõ ràng trong định nghĩa kỹ năng ban đầu. Nó chỉ xuất hiện sau khi kỹ năng tương tác với một tài nguyên bên ngoài được kiểm soát bởi kẻ tấn công.
Kỹ thuật này đòi hỏi các hệ thống phát hiện tấn công phải có khả năng theo dõi và phân tích các chuỗi thực thi phức tạp và các tương tác liên ứng dụng. Nếu không, chúng dễ dàng bị đánh lừa bởi các lệnh gọi gián tiếp và tài nguyên động, cho phép mối đe dọa mạng tiềm ẩn tồn tại trong môi trường.
Tấn Công Prompt Injection vào Máy Quét Dựa trên LLM
Các nhà nghiên cứu của Trail of Bits cũng đã khai thác thành công kỹ thuật prompt injection để thao túng các máy quét dựa trên LLM. Trong một ví dụ cụ thể, một kỹ năng đã được ngụy trang một cách khéo léo, biến một cấu hình kho lưu trữ gói độc hại thành một thiết lập doanh nghiệp hoàn toàn tiêu chuẩn và hợp pháp.
Bằng cách đóng khung hành vi này như một yêu cầu hợp pháp và cần thiết của công ty, máy quét dựa trên LLM đã bị lừa. Nó đánh giá sai, hạ thấp mức độ rủi ro tiềm ẩn xuống mức thấp đáng ngạc nhiên. Kết quả là, máy quét đã phê duyệt kỹ năng, bất παρά tiềm năng nguy hiểm của nó trong việc chuyển hướng cài đặt phụ thuộc phần mềm đến cơ sở hạ tầng được kiểm soát bởi kẻ tấn công.
Đây là một minh chứng rõ ràng cho sự tinh vi của mối đe dọa mạng khi nhắm vào các hệ thống AI. Khả năng thuyết phục LLM rằng một hành động có hại thực sự là hợp pháp hoặc có mức độ rủi ro thấp tạo ra một vectơ tấn công mạnh mẽ. Nó đặc biệt nguy hiểm trong các môi trường dựa trên AI mà cần đảm bảo an toàn thông tin.
Hạn Chế Cố Hữu của Phương Pháp Quét Kỹ Năng AI Hiện Tại
Những kỹ thuật qua mặt được trình bày ở trên nhấn mạnh những hạn chế cơ bản và sâu sắc trong các phương pháp quét bảo mật hiện tại dành cho kỹ năng AI. Phân tích tĩnh, mặc dù quan trọng, thường gặp khó khăn nghiêm trọng khi đối mặt với các định dạng tệp phức tạp, được nén, mã hóa hoặc bị ẩn một cách chiến lược. Nó không thể theo dõi động học hoặc ý định thực sự của mã.
Đồng thời, các hệ thống dựa trên LLM, mặc dù mạnh mẽ trong việc hiểu ngữ cảnh và ngôn ngữ tự nhiên, lại có thể bị đánh lừa một cách hiệu quả. Chúng dễ dàng bị thao túng bởi các hướng dẫn mang tính thuyết phục, được đóng khung theo ngữ cảnh để che giấu ý đồ độc hại. Sự “linh hoạt” trong khả năng diễn giải của LLM đôi khi lại trở thành điểm yếu nghiêm trọng.
Ngoài ra, các ràng buộc kỹ thuật khác như cửa sổ ngữ cảnh (context windows) hạn chế và chính sách kiểm tra tệp chọn lọc cũng tạo ra những “điểm mù” đáng kể. Những điểm mù này có thể bị kẻ tấn công khai thác lặp đi lặp lại để chèn mã độc vào các khu vực không được giám sát, làm suy yếu khả năng phát hiện tấn công của các hệ thống.
Vấn đề trở nên phức tạp hơn do sự phát triển nhanh chóng và tính mở của các thị trường kỹ năng AI công cộng. Tại đây, người dùng có thể dễ dàng cài đặt các kỹ năng từ bên thứ ba với mức độ xác minh bảo mật tối thiểu hoặc không đáng tin cậy. Sự thiếu hụt kiểm soát này làm tăng đáng kể rủi ro bảo mật.
Không giống như các môi trường phát triển phần mềm truyền thống được kiểm duyệt chặt chẽ, các nền tảng kỹ năng AI công cộng thường ưu tiên khả năng sử dụng và tốc độ triển khai hơn là các kiểm soát bảo mật nghiêm ngặt. Điều này làm tăng đáng kể nguy cơ tiếp xúc với các nội dung tải lên độc hại, tạo ra một mối đe dọa mạng tiềm tàng cho người dùng và tổ chức.
Khuyến Nghị Nâng Cao An Toàn Thông Tin cho Hệ Sinh Thái Kỹ Năng AI
Các nhà nghiên cứu của Trail of Bits kết luận rằng việc chỉ dựa vào quét tự động là hoàn toàn không đủ để bảo mật hiệu quả các hệ sinh thái kỹ năng AI. Một chiến lược toàn diện hơn nhiều là cần thiết để đối phó với những mối đe dọa mạng ngày càng tinh vi này.
Họ khuyến nghị mạnh mẽ việc áp dụng các thực hành bảo mật chuỗi cung ứng truyền thống và đã được chứng minh. Điều này bao gồm việc thiết lập và duy trì:
- Kho lưu trữ được kiểm duyệt chặt chẽ: Chỉ cho phép các kỹ năng đã được xác minh và kiểm tra kỹ lưỡng được tải lên và phân phối.
- Kiểm soát truy cập nghiêm ngặt: Giới hạn quyền truy cập vào các kỹ năng và dữ liệu nhạy cảm, áp dụng nguyên tắc đặc quyền tối thiểu.
- Ghim phiên bản (version pinning): Đảm bảo rằng các kỹ năng và phụ thuộc được sử dụng là các phiên bản đã biết và an toàn, ngăn chặn việc tự động cập nhật lên các phiên bản có thể bị xâm phạm.
- Quy trình đánh giá mã thủ công: Kết hợp với các công cụ tự động, việc đánh giá mã nguồn thủ công bởi các chuyên gia bảo mật có thể phát hiện các kỹ thuật che giấu phức tạp.
Việc thực hiện các biện pháp này giúp giảm thiểu đáng kể khả năng các kỹ năng độc hại xâm nhập và hoạt động trong môi trường sản xuất. Đây là một phần không thể thiếu của chiến lược an toàn thông tin toàn diện cho mọi tổ chức sử dụng AI.
Cho đến khi các biện pháp bảo vệ mạnh mẽ và tiên tiến hơn được phát triển và triển khai rộng rãi, các tổ chức được khuyến nghị nên coi tất cả các kỹ năng AI công cộng là mã không đáng tin cậy. Họ nên áp dụng chính sách nghiêm ngặt, tránh triển khai chúng trong các môi trường nhạy cảm hoặc quan trọng. Đây là một khuyến nghị cốt lõi để giảm thiểu rủi ro bảo mật tức thì.
Để đảm bảo khả năng phát hiện tấn công hiệu quả trước các kỹ thuật mới, việc thường xuyên cập nhật và đánh giá các công cụ quét cũng như quy trình bảo mật là điều cần thiết. Tổ chức cần liên tục kiểm tra nguồn gốc, tính toàn vẹn và hành vi thực tế của mọi kỹ năng AI trước khi tích hợp vào hệ thống sản xuất. Đầu tư vào threat intelligence cũng là một yếu tố quan trọng.
Để tìm hiểu thêm chi tiết về nghiên cứu chuyên sâu này và các phát hiện quan trọng, bạn có thể tham khảo báo cáo gốc từ Trail of Bits, một nguồn đáng tin cậy trong lĩnh vực bảo mật: The Sorry State of Skill Distribution.










