GPUHammer: Cuộc Tấn Công Rowhammer Đầu Tiên Khai Thác GPU NVIDIA

Nội dung

Khám phá GPUHammer: Cuộc tấn công Rowhammer đầu tiên trên GPU NVIDIA

Cơ chế hoạt động của Rowhammer và sự mở rộng sang GPU

Phản ứng của NVIDIA và tầm quan trọng của ECC

Khám phá GPUHammer: Cuộc tấn công Rowhammer đầu tiên trên GPU NVIDIA

Các nhà nghiên cứu từ Đại học Toronto đã công bố thành công cuộc tấn công Rowhammer đầu tiên nhắm vào một bộ xử lý đồ họa (GPU) của NVIDIA, cụ thể là mẫu A6000 được trang bị bộ nhớ GDDR6. Cuộc tấn công này, đôi khi được gọi là “GPUHammer”, mở rộng lỗ hổng Rowhammer đã tồn tại hàng thập kỷ, vốn truyền thống chỉ liên quan đến bộ nhớ truy cập ngẫu nhiên động (DRAM) dựa trên CPU như DDR và LPDDR.

Cuộc tấn công chứng minh khả năng gây ra lỗi lật bit (bit flip) trong các ô bộ nhớ lân cận thông qua việc truy cập lặp đi lặp lại vào các hàng bộ nhớ liền kề. Điều này có thể dẫn đến việc hỏng dữ liệu trái phép hoặc leo thang đặc quyền. NVIDIA đã xác nhận nghiên cứu này, nhấn mạnh rằng nó củng cố các biện pháp giảm thiểu hiện có thay vì tạo ra các mối đe dọa mới.

Nghiên cứu được thực hiện trong môi trường không bật tính năng System-Level Error-Correcting Code (SYS-ECC), làm nổi bật các rủi ro tiềm ẩn trong các hệ thống không được bảo vệ. Tuy nhiên, nghiên cứu cũng xác nhận rằng việc kích hoạt SYS-ECC có thể vô hiệu hóa hiệu quả lỗ hổng này, từ đó nhấn mạnh tầm quan trọng của việc bảo vệ bộ nhớ mạnh mẽ trong các hệ thống điện toán hiệu năng cao.

Cơ chế hoạt động của Rowhammer và sự mở rộng sang GPU

Hiện tượng Rowhammer khai thác mật độ vật lý cao của các chip DRAM hiện đại. Trong một chip DRAM, các ô bộ nhớ được sắp xếp thành các hàng và cột. Để đọc hoặc ghi dữ liệu vào một ô, hàng chứa ô đó phải được “kích hoạt” (activated). Khi một hàng được kích hoạt liên tục và nhanh chóng (hay còn gọi là “hammering”), nhiễu điện từ hoạt động tích cực này có thể ảnh hưởng đến các ô bộ nhớ ở các hàng lân cận. Điều này dẫn đến sự thay đổi trạng thái của các bit trong các ô lân cận đó, gây ra hiện tượng lật bit không mong muốn (ví dụ, bit 0 biến thành 1 hoặc ngược lại).

Trong nhiều năm, đây là một vấn đề đã được biết đến trong bộ nhớ CPU. Tuy nhiên, việc mở rộng lỗ hổng này sang GPU đánh dấu một sự leo thang đáng kể. GPU, với kiến trúc xử lý song song mạnh mẽ, yêu cầu truy cập bộ nhớ cực kỳ nhanh và đồng thời, khiến chúng trở thành mục tiêu tiềm năng cho các cuộc tấn công dựa trên bộ nhớ vật lý như Rowhammer. Sự thành công của cuộc tấn công trên mẫu A6000 thuộc kiến trúc Ampere mà không bật ECC chỉ ra các rủi ro tiềm tàng trong các thiết lập máy trạm và trung tâm dữ liệu. Đặc biệt, trong môi trường đa người thuê (multi-tenant), nơi nhiều người dùng có thể truy cập chung GPU, lỗ hổng này có thể tạo điều kiện cho việc khai thác xuyên tiến trình (cross-process exploitation), cho phép một ứng dụng độc hại ảnh hưởng đến dữ liệu của một ứng dụng khác trên cùng một GPU.

Phản ứng của NVIDIA và tầm quan trọng của ECC

NVIDIA đã phản hồi chi tiết về cách các sản phẩm GPU và SoC của họ tuân thủ các tiêu chuẩn ngành cho bộ nhớ GDDR, LPDDR và HBM. Tuy nhiên, khả năng dễ bị tấn công của một hệ thống có thể thay đổi tùy thuộc vào loại DRAM cụ thể, thiết kế nền tảng và cấu hình hệ thống.

Các nhà nghiên cứu đã chỉ ra rằng việc bật SYS-ECC không chỉ phát hiện và sửa lỗi một bit mà còn ngăn chặn các lỗi lật bit đa bit do Rowhammer gây ra. Điều này cung cấp một lớp phòng thủ bổ sung khi kết hợp với các tính năng phần cứng khác như On-Die ECC (OD-ECC).

SYS-ECC: Lớp phòng thủ hệ thống

NVIDIA khuyến nghị mạnh mẽ việc kích hoạt SYS-ECC trên nhiều dòng sản phẩm để giảm thiểu rủi ro Rowhammer. Điều này bao gồm:

Hệ thống dựa trên Blackwell như dòng HGX và DGX (GB200, B200, B100)
Kiến trúc Ada như L40S và RTX 6000
Dòng Hopper bao gồm H100 và H200
Mẫu Ampere như A100 và RTX A6000
Thiết bị Jetson như AGX Orin Industrial
GPU Turing như T4 và RTX 8000
Thậm chí cả Tesla V100 thuộc kỷ nguyên Volta

Tính năng SYS-ECC được bật theo mặc định trên các GPU trung tâm dữ liệu Hopper và Blackwell, cung cấp khả năng bảo vệ ngay lập tức cho các môi trường doanh nghiệp.

Việc kích hoạt SYS-ECC có thể được thực hiện thông qua các phương pháp ngoài băng tần (out-of-band) như API Redfish hoặc NVIDIA SMBPBI thông qua bộ điều khiển quản lý bo mạch chủ (baseboard management controller). Ngoài ra, các công cụ trong băng tần (in-band) như nvidia-smi cũng có thể được sử dụng để cấu hình trực tiếp từ CPU đến GPU. Các hướng dẫn chi tiết có sẵn thông qua các cổng thông tin đối tác của NVIDIA, đảm bảo các quản trị viên có thể xác minh và đặt chế độ ECC một cách hiệu quả.

OD-ECC: Bảo vệ tích hợp trong chip

Ngoài SYS-ECC, các thế hệ DRAM mới hơn, bắt đầu từ DDR4, LPDDR5, HBM3 và GDDR7, tích hợp On-Die ECC (OD-ECC). OD-ECC hoạt động một cách minh bạch ở cấp độ khuôn chip (die level) để sửa lỗi nội bộ. Mặc dù nó không được thiết kế trực tiếp để chống lại Rowhammer, OD-ECC gián tiếp củng cố khả năng chống chịu của bộ nhớ đối với các biến động điện áp hoặc nhiễu bên trong, từ đó tăng cường độ tin cậy tổng thể của bộ nhớ mà không cần sự can thiệp của người dùng.

Các sản phẩm hỗ trợ OD-ECC bao gồm dòng RTX 50 của Blackwell và các nền tảng HGX, cũng như H100 và GH200 của Hopper. Việc tích hợp OD-ECC nâng cao tính toàn vẹn của bộ nhớ tổng thể trong bối cảnh các nút xử lý ngày càng thu nhỏ, nơi mật độ transistor cao hơn có thể làm tăng các thách thức về độ tin cậy.

Khuyến nghị và đánh giá rủi ro

Để tăng cường bảo mật, NVIDIA khuyến nghị sử dụng phần cứng cấp chuyên nghiệp và trung tâm dữ liệu thay vì GPU tiêu dùng, đặc biệt là trong các kịch bản đa người thuê. Trong môi trường này, việc nhiều người dùng truy cập GPU đồng thời có thể tạo điều kiện cho các cuộc tấn công giữa các người dùng.

Đánh giá rủi ro cần xem xét mô hình người thuê (tenancy model). Các thiết lập đơn người thuê (single-tenant) vốn dĩ hạn chế các cơ hội khai thác, vì không có sự cạnh tranh tài nguyên hoặc rò rỉ dữ liệu giữa các người dùng khác nhau trên cùng một phần cứng GPU.

Thông báo này, được phát hành lần đầu vào ngày 10 tháng 7 năm 2025, đóng vai trò là một lời nhắc nhở chủ động trong bối cảnh các mối đe dọa đang phát triển. Nó khuyến khích người dùng tận dụng các biện pháp giảm thiểu này để bảo vệ hệ thống của họ khỏi các lỗ hổng kiểu Rowhammer trong hệ sinh thái GPU. Khi điện toán GPU cung cấp sức mạnh cho các tác vụ trí tuệ nhân tạo (AI) và điện toán hiệu năng cao (HPC), những tiến bộ trong nghiên cứu tấn công như GPUHammer sẽ thúc đẩy những cải tiến liên tục về khả năng phục hồi của phần cứng, bắt kịp với sự phát triển không ngừng của công nghệ bộ nhớ.