Giải Mã Sự Cố 1.1.1.1 DNS Cloudflare: Lỗi Cấu Hình Nội Bộ và BGP Hijack

Ngày 14 tháng 7 năm 2025, dịch vụ giải quyết tên miền (DNS resolver) phổ biến 1.1.1.1 của Cloudflare đã gặp sự cố ngừng hoạt động toàn cầu kéo dài 62 phút. Cloudflare đã xác nhận nguyên nhân sự cố là do lỗi cấu hình nội bộ, không phải một cuộc tấn công bên ngoài, mặc dù sự việc trùng hợp với một vụ chiếm quyền điều khiển BGP (BGP hijack) không liên quan, làm phức tạp thêm tình hình.

Nội dung

Tổng quan sự cố

Nguyên nhân gốc rễ: Lỗi cấu hình nội bộ

Sự cố BGP Hijack phức tạp

Quá trình phục hồi và bài học rút ra

Tổng quan sự cố

Sự cố ngừng hoạt động kéo dài từ 21:52 UTC đến 22:54 UTC, ảnh hưởng đến hàng triệu người dùng trên toàn thế giới phụ thuộc vào dịch vụ DNS resolver công cộng 1.1.1.1. Trong suốt thời gian gián đoạn, hầu hết các dịch vụ internet trở nên không khả dụng đối với người dùng bị ảnh hưởng do họ không thể phân giải tên miền.

Đây là một trong những sự cố ngừng hoạt động DNS đáng kể nhất trong những năm gần đây, xét đến vị thế của 1.1.1.1 là một trong những dịch vụ DNS resolver phổ biến nhất thế giới kể từ khi ra mắt vào năm 2018.

Nguyên nhân gốc rễ: Lỗi cấu hình nội bộ

Sự cố ngừng hoạt động bắt nguồn từ một lỗi cấu hình được đưa vào hệ thống từ ngày 6 tháng 6 năm 2025, trong quá trình chuẩn bị cho dịch vụ Data Localization Suite (DLS) trong tương lai. Lỗi cấu hình này vô tình liên kết các địa chỉ IP của resolver 1.1.1.1 với một dịch vụ phi sản xuất. Tuy nhiên, lỗi này đã ở trạng thái “ngủ đông” hơn một tháng mà không gây ra bất kỳ tác động tức thì nào.

Khủng hoảng thực sự bùng phát vào ngày 14 tháng 7 khi các kỹ sư thực hiện một thay đổi cấu hình định kỳ nhằm gắn một địa điểm thử nghiệm vào cùng dịch vụ DLS. Thay đổi này đã kích hoạt một quá trình làm mới cấu hình mạng toàn cầu, vô tình rút các tiền tố (prefixes) của resolver 1.1.1.1 khỏi các trung tâm dữ liệu sản xuất của Cloudflare trên toàn thế giới. Việc rút tiền tố này đã ảnh hưởng đến nhiều dải IP, bao gồm 1.1.1.0/24, 1.0.0.0/24 và một số dải IPv6.

Sự cố BGP Hijack phức tạp

Khi các hệ thống của Cloudflare rút các tuyến đường, một diễn biến bất ngờ đã xảy ra: Tata Communications India (AS4755) bắt đầu quảng bá tiền tố 1.1.1.0/24, tạo ra một kịch bản tưởng chừng như là một vụ chiếm quyền điều khiển BGP (BGP hijack) kinh điển.

Tuy nhiên, Cloudflare đã nhấn mạnh rằng vụ BGP hijack này không phải là nguyên nhân gốc rễ của sự cố ngừng hoạt động ban đầu mà chỉ là một vấn đề không liên quan trở nên hiển thị khi Cloudflare rút các thông báo tuyến đường của chính mình.

Quá trình phục hồi và bài học rút ra

Cloudflare đã phát hiện tác động của sự cố vào lúc 22:01 UTC và tuyên bố đây là một sự cố. Công ty đã bắt đầu khôi phục cấu hình trước đó vào lúc 22:20 UTC, điều này ngay lập tức khôi phục khoảng 77% lưu lượng truy cập.

Tuy nhiên, việc phục hồi hoàn toàn đòi hỏi thêm thời gian vì khoảng 23% các máy chủ biên (edge servers) đã tự động gỡ bỏ các ràng buộc IP cần thiết trong quá trình thay đổi cấu trúc liên kết mạng (topology change).

Để tăng tốc độ phục hồi, Cloudflare đã kích hoạt và xác thực thủ công các thay đổi tại các địa điểm thử nghiệm trước khi thực hiện chúng trên toàn cầu, bỏ qua quy trình triển khai lũy tiến (progressive rollout) thông thường của họ. Mức lưu lượng truy cập bình thường đã được phục hồi hoàn toàn vào lúc 22:54 UTC.

Sự cố này làm nổi bật sự phức tạp trong việc quản lý cơ sở hạ tầng DNS toàn cầu và những hiệu ứng dây chuyền mà các lỗi cấu hình có thể gây ra đối với khả năng truy cập internet trên toàn thế giới.