Một phát hiện bảo mật quan trọng cho thấy khoảng 175.000 máy chủ Ollama đang công khai trên internet. Tình trạng này tạo ra rủi ro nghiêm trọng về thực thi mã từ xa (remote code execution) và khả năng truy cập trái phép vào các hệ thống bên ngoài.
Ollama, một framework mã nguồn mở được thiết kế để chạy các mô hình trí tuệ nhân tạo cục bộ, đã bị lộ diện một cách không mong muốn.
Nguyên nhân là do những thay đổi cấu hình đơn giản mà quản trị viên thực hiện mà không hiểu đầy đủ các hàm ý bảo mật.
Các nhà nghiên cứu đã ghi lại cách các máy chủ tiếp xúc internet này có thể bị thao túng để thực thi mã tùy ý và tương tác với các tài nguyên nhạy cảm.
Điều này làm thay đổi cơ bản cách các tổ chức phải suy nghĩ về bảo mật hạ tầng AI.
Ollama: Lỗi Cấu Hình Dẫn Đến Thực Thi Mã Từ Xa
Việc lộ diện các máy chủ Ollama bắt nguồn từ một sơ suất nghiêm trọng trong các thực hành triển khai.
Theo mặc định, Ollama liên kết với một địa chỉ chỉ cục bộ (local-only address), khiến nó không thể truy cập được từ internet.
Tuy nhiên, việc thay đổi một cài đặt cấu hình duy nhất—liên kết dịch vụ với 0.0.0.0 hoặc một giao diện công khai—đã biến các hệ thống vốn cô lập này thành các mục tiêu có thể truy cập từ internet.
Khi các mô hình AI mã nguồn mở trở nên phổ biến vào năm 2025, mô hình cấu hình sai này đã xuất hiện trên quy mô lớn.
Các triển khai bị ảnh hưởng trải rộng khắp 130 quốc gia và 4.032 mạng lưới hệ thống tự trị (autonomous system networks).
Phạm Vi và Phát Hiện Mối Đe Dọa Mạng
Các nhà phân tích từ SentinelLABS đã xác định bối cảnh mối đe dọa này thông qua một chiến dịch quét toàn diện kéo dài 293 ngày.
Chiến dịch được thực hiện với sự hợp tác của Censys. (Nguồn: SentinelLABS)
Nghiên cứu của họ đã phát hiện 7,23 triệu lượt quan sát từ các máy chủ bị lộ, cho thấy cả phạm vi của lỗ hổng và tiềm năng khai thác của nó.
Cơ sở hạ tầng được phát hiện đại diện cho một điểm yếu chí tử trong cách các tổ chức triển khai và quản lý hệ thống trí tuệ nhân tạo mà không có kiểm soát bảo mật đầy đủ.
Tình trạng này tạo ra rủi ro bảo mật nghiêm trọng đối với dữ liệu và hệ thống.
Chức Năng Tool-Calling: Cánh Cửa Cho Kẻ Tấn Công
Phát hiện đáng báo động nhất liên quan đến các khả năng gọi công cụ (tool-calling) được nhúng trong gần một nửa số máy chủ Ollama bị lộ.
Các khả năng này cho phép hệ thống thực thi mã, truy cập các giao diện lập trình ứng dụng (API) và tương tác với cơ sở hạ tầng bên ngoài một cách trực tiếp.
Khoảng 38% số máy chủ được quan sát hiển thị cả chức năng hoàn thành văn bản (text completion) và thực thi công cụ (tool-execution).
Điều này cơ bản cấp cho kẻ tấn công khả năng chạy các lệnh trực tiếp thông qua giao diện trí tuệ nhân tạo.
Khi kết hợp với các kiểm soát xác thực không đầy đủ, cấu hình này tạo ra một con đường trực tiếp cho remote code execution.
Tool-calling là một trong những khía cạnh nguy hiểm nhất của hệ sinh thái Ollama bị lộ.
Không giống như các điểm cuối tạo văn bản truyền thống chỉ đơn thuần sản xuất nội dung, các hệ thống hỗ trợ công cụ có khả năng thực hiện các hành động.
Kỹ Thuật Prompt Injection và Rủi Ro Gia Tăng
Kẻ tấn công có thể tạo ra các câu lệnh (prompts) cụ thể được thiết kế để lừa các mô hình trí tuệ nhân tạo này.
Mục tiêu là khiến chúng thực thi các lệnh hệ thống hoặc truy cập các tệp mà không có sự đồng ý của chủ sở hữu máy chủ.
Kỹ thuật này, được gọi là prompt injection, trở nên đặc biệt mạnh mẽ khi nhắm mục tiêu vào các hệ thống chạy triển khai tạo sinh tăng cường truy xuất (Retrieval-Augmented Generation – RAG).
Các triển khai RAG tìm kiếm thông qua cơ sở dữ liệu và tài liệu để trả lời các câu hỏi, tiềm ẩn nguy cơ cao bị khai thác.
Rủi ro bảo mật nhân lên khi xem xét 22% số máy chủ bị lộ có khả năng thị giác (vision capabilities).
Những khả năng này cho phép chúng phân tích hình ảnh và tài liệu.
Kẻ tấn công có thể nhúng các lệnh độc hại vào các tệp hình ảnh, tạo ra các cuộc tấn công prompt injection gián tiếp.
Các cuộc tấn công này có thể bỏ qua các biện pháp phòng thủ bảo mật truyền thống.
Khi kết hợp với chức năng tool-calling, một phiên bản Ollama bị lộ trở thành một nền tảng linh hoạt để thực hiện hầu như bất kỳ hoạt động độc hại nào thông qua remote code execution.
Mô Hình Tối Ưu Hóa Suy Luận và Các Cuộc Tấn Công Đa Giai Đoạn
Hơn nữa, 26% các máy chủ bị lộ chạy các mô hình tối ưu hóa suy luận (reasoning-optimized models).
Các mô hình này có khả năng chia các tác vụ phức tạp thành các bước tuần tự.
Điều này cung cấp cho kẻ tấn công các khả năng lập kế hoạch tinh vi cho các cuộc tấn công đa giai đoạn, làm tăng mức độ phức tạp và khó phát hiện.
Sự hội tụ của các khả năng này biến những lỗi cấu hình riêng lẻ thành một cơ sở hạ tầng mối đe dọa thống nhất.
Các tổ chức tội phạm có thể khai thác các lỗ hổng này trên quy mô lớn, gây ảnh hưởng nghiêm trọng đến an ninh mạng toàn cầu.
Sự tập trung rủi ro mở rộng ra ngoài việc thỏa hiệp hệ thống riêng lẻ.
Khoảng 48% các máy chủ bị lộ chạy các định dạng lượng tử hóa (quantization formats) và dòng mô hình (model families) giống hệt nhau.
Điều này tạo ra cái mà các nhà nghiên cứu mô tả là một nền văn hóa đơn canh (monoculture) – một hệ sinh thái dễ vỡ.
Trong hệ sinh thái này, một lỗ hổng duy nhất có thể đồng thời ảnh hưởng đến hàng nghìn hệ thống.
Điểm yếu cấu trúc này có nghĩa là các nhà phòng thủ không thể dựa vào sự đa dạng để hạn chế phạm vi tác động của các khai thác được phát hiện.
Khi một lỗi triển khai duy nhất tồn tại trong một định dạng mô hình được triển khai rộng rãi, hậu quả sẽ lan truyền khắp toàn bộ hệ sinh thái bị lộ.
Thay vì chỉ là các sự cố riêng lẻ, điều này dẫn đến một làn sóng tấn công remote code execution quy mô lớn, đe dọa nghiêm trọng đến an ninh mạng.
Các quản trị viên và chuyên gia bảo mật cần đặc biệt chú ý đến cấu hình của các máy chủ Ollama để ngăn chặn rủi ro bảo mật này.










