NVIDIA đã phát hành các bản cập nhật bảo mật quan trọng để khắc phục hai lỗ hổng nghiêm trọng trong Container Toolkit và GPU Operator của họ. Các lỗ hổng này có thể cho phép kẻ tấn công thực thi mã tùy ý với đặc quyền nâng cao.
Các lỗ hổng này, được phát hiện vào tháng 7 năm 2025, ảnh hưởng đến tất cả các phiên bản của Container Toolkit lên đến 1.17.7 và GPU Operator lên đến 25.3.0. NVIDIA đã ngay lập tức cung cấp các bản vá bảo mật và khuyến nghị biện pháp giảm thiểu.
Chi tiết lỗ hổng CVE-2025-23266: Thực thi mã tùy ý và leo thang đặc quyền
Lỗ hổng nghiêm trọng nhất, được theo dõi là CVE-2025-23266, có điểm CVSS v3.1 là 9.0 (Critical). Lỗ hổng này ảnh hưởng đến các hook khởi tạo (initialization hooks) trong NVIDIA Container Toolkit trên tất cả các nền tảng.
Cụ thể, CVE-2025-23266 cho phép kẻ tấn công thực thi mã tùy ý với các quyền hạn được nâng cao. Điều này tiềm ẩn nguy cơ dẫn đến việc chiếm đoạt hoàn toàn hệ thống (complete system compromise) thông qua các hành vi sau:
- Leo thang đặc quyền (Privilege Escalation): Kẻ tấn công có thể nâng cao quyền hạn của mình từ một tài khoản người dùng thông thường lên quyền quản trị hệ thống hoặc quyền root.
- Giả mạo dữ liệu (Data Tampering): Dữ liệu trên hệ thống có thể bị sửa đổi, xóa hoặc làm hỏng.
- Tiết lộ thông tin (Information Disclosure): Thông tin nhạy cảm hoặc bí mật có thể bị truy cập và tiết lộ trái phép.
- Tấn công từ chối dịch vụ (Denial of Service – DoS): Kẻ tấn công có thể làm cho các dịch vụ hoặc tài nguyên hệ thống không thể truy cập được đối với người dùng hợp pháp.
Lỗ hổng này khai thác các điểm yếu trong quá trình khởi tạo của container, khiến nó đặc biệt nguy hiểm đối với các môi trường ảo hóa dựa trên container. Khả năng thực thi mã tùy ý ở cấp độ cao nhất trong môi trường container có thể phá vỡ hoàn toàn cơ chế cô lập container, cho phép kẻ tấn công thoát khỏi container và ảnh hưởng đến hệ thống máy chủ vật lý hoặc ảo (host system).
Chi tiết lỗ hổng CVE-2025-23267: Tấn công theo dõi liên kết
Lỗ hổng thứ hai, CVE-2025-23267, nhận được đánh giá mức độ nghiêm trọng cao với điểm CVSS v3.1 là 8.5 (High). Lỗ hổng này ảnh hưởng đến hook update-ldcache trong NVIDIA GPU Operator.
CVE-2025-23267 cho phép kẻ tấn công thực hiện các cuộc tấn công theo dõi liên kết (link following attacks) bằng cách sử dụng các image container được chế tạo đặc biệt. Trong một cuộc tấn công theo dõi liên kết, kẻ tấn công có thể lừa một chương trình hoặc hệ thống thực hiện các thao tác trên một tệp hoặc thư mục mà chúng kiểm soát (thông qua một symbolic link hoặc hard link) thay vì tệp hoặc thư mục mà chương trình dự định thao tác.
Mặc dù mức độ nghiêm trọng của CVE-2025-23267 thấp hơn so với CVE-2025-23266, nó vẫn tiềm ẩn những rủi ro đáng kể, bao gồm:
- Giả mạo dữ liệu (Data Tampering): Dữ liệu có thể bị sửa đổi hoặc hỏng do kẻ tấn công thao tác với các liên kết.
- Tấn công từ chối dịch vụ (Denial of Service – DoS): Kẻ tấn công có thể làm gián đoạn hoạt động bình thường của GPU Operator hoặc các dịch vụ phụ thuộc.
Khả năng khai thác lỗ hổng này thông qua các image container độc hại nhấn mạnh tầm quan trọng của việc kiểm tra và xác minh nguồn gốc của các image được sử dụng trong môi trường sản xuất.
Sản phẩm bị ảnh hưởng và phiên bản cần cập nhật
Cả hai lỗ hổng đều ảnh hưởng đến các cài đặt NVIDIA Container Toolkit trên tất cả các nền tảng và GPU Operator trên hệ thống Linux.
Các tổ chức đang chạy các phiên bản Container Toolkit lên đến 1.17.7 hoặc GPU Operator lên đến 25.3.0 đều dễ bị tổn thương. Điều cần thiết là phải nâng cấp ngay lập tức lên các phiên bản đã được vá lỗi:
- NVIDIA Container Toolkit: Phiên bản 1.17.8
- NVIDIA GPU Operator: Phiên bản 25.3.1
Việc không cập nhật kịp thời có thể khiến hệ thống của bạn tiếp xúc với các rủi ro bảo mật nghiêm trọng đã được mô tả, đặc biệt là trong môi trường container hóa nơi lỗ hổng có thể được khai thác để vượt qua các ranh giới bảo mật thông thường.
Các biện pháp giảm thiểu tạm thời
Trong trường hợp không thể nâng cấp ngay lập tức lên các phiên bản đã vá lỗi, NVIDIA cung cấp các biện pháp giảm thiểu tạm thời để giảm thiểu rủi ro. Các biện pháp này tập trung vào việc vô hiệu hóa hook enable-cuda-compat, một tính năng có liên quan đến các lỗ hổng đã được xác định.
Đối với người dùng NVIDIA Container Runtime
Người dùng Container Runtime có thể vô hiệu hóa hook enable-cuda-compat bằng cách sửa đổi tệp cấu hình config.toml. Điều này liên quan đến việc đặt cờ tính năng disable-cuda-compat-lib-hook thành true.
Bước 1: Tìm và mở tệp cấu hình config.toml của NVIDIA Container Runtime. Vị trí phổ biến cho tệp này có thể là /etc/nvidia-container-runtime/config.toml hoặc một thư mục cấu hình tương tự tùy thuộc vào cách cài đặt của bạn.
Bước 2: Chỉnh sửa tệp config.toml để thêm hoặc sửa đổi dòng sau trong phần cấu hình phù hợp:
# /etc/nvidia-container-runtime/config.toml
# ... các cấu hình khác ...
[nvidia-container-runtime]
disable-cuda-compat-lib-hook = true
# ... các cấu hình khác ...
Đảm bảo rằng dòng disable-cuda-compat-lib-hook = true được đặt chính xác trong phần [nvidia-container-runtime]. Sau khi sửa đổi, hãy lưu tệp và khởi động lại các dịch vụ hoặc container liên quan để áp dụng thay đổi.
Đối với người dùng NVIDIA GPU Operator (qua Helm)
Người dùng GPU Operator có thể đạt được biện pháp bảo vệ tương tự bằng cách thêm cờ disable-cuda-compat-lib-hook vào biến môi trường trong quá trình cài đặt hoặc nâng cấp Helm.
Khi triển khai hoặc cập nhật GPU Operator bằng Helm, bạn có thể truyền các giá trị thông qua tùy chọn --set hoặc bằng cách cung cấp một tệp giá trị tùy chỉnh (-f values.yaml).
Ví dụ cấu hình bằng Helm --set:
Để vô hiệu hóa hook trong quá trình cài đặt mới:
helm install nvidia-gpu-operator nvidia/gpu-operator \
--namespace gpu-operator \
--create-namespace \
--set nvidiaRuntime.disableCudaCompatLibHook=true
Để vô hiệu hóa hook khi nâng cấp một cài đặt hiện có:
helm upgrade nvidia-gpu-operator nvidia/gpu-operator \
--namespace gpu-operator \
--set nvidiaRuntime.disableCudaCompatLibHook=true
Trong các lệnh trên, nvidiaRuntime.disableCudaCompatLibHook=true sẽ thiết lập biến tương ứng để vô hiệu hóa tính năng tương thích CUDA, từ đó giảm thiểu nguy cơ khai thác.
Ví dụ cấu hình bằng tệp values.yaml:
Bạn có thể tạo một tệp values.yaml với nội dung sau:
nvidiaRuntime:
disableCudaCompatLibHook: true
Sau đó, sử dụng tệp này khi cài đặt hoặc nâng cấp Helm:
helm install nvidia-gpu-operator nvidia/gpu-operator \
--namespace gpu-operator \
--create-namespace \
-f my-values.yaml
Hoặc:
helm upgrade nvidia-gpu-operator nvidia/gpu-operator \
--namespace gpu-operator \
-f my-values.yaml
Hãy đảm bảo rằng các tùy chọn này được áp dụng thành công và xác minh trạng thái của GPU Operator sau khi thay đổi cấu hình.
Khuyến nghị bảo mật
Các chuyên gia bảo mật khuyến nghị thực hiện ngay lập tức các bản vá có sẵn, do tính chất nghiêm trọng của các lỗ hổng này và tiềm năng khai thác chúng trong các môi trường container hóa. Việc trì hoãn cập nhật có thể mở ra cánh cửa cho các cuộc tấn công nhắm mục tiêu, gây ra những thiệt hại đáng kể.
Các tổ chức nên ưu tiên cập nhật các cài đặt NVIDIA Container Toolkit và GPU Operator của mình, đồng thời triển khai các biện pháp giảm thiểu được đề xuất như các biện pháp bảo vệ tạm thời. Một chiến lược bảo mật toàn diện cho môi trường container nên bao gồm việc cập nhật thường xuyên, giám sát lỗ hổng và kiểm tra cấu hình nghiêm ngặt.










