Tổng quan sự cố
- Nguyên nhân: Một thay đổi DNS gần đây nhằm mục đích loại bỏ các bản ghi CNAME IPv6 trùng lặp đã vô tình xóa một miền quan trọng (
autologon.microsoftazuread.sso.com) thiết yếu cho xác thực Entra ID. - Tác động: Việc xóa bỏ này đã gây ra các lỗi phân giải DNS, dẫn đến thất bại trong xác thực khi khách hàng cố gắng truy cập dịch vụ Azure từ 17:18 UTC đến 18:35 UTC vào ngày 25 tháng 2 năm 2025.
- Giải pháp: Microsoft đã ngay lập tức khôi phục thay đổi DNS, phục hồi các bản ghi DNS cần thiết và giải quyết các thất bại trong xác thực.
Chi tiết kỹ thuật
- Sai lầm trong việc làm sạch DNS: Việc làm sạch DNS nhằm loại bỏ các mục CNAME IPv6 dư thừa nhưng cũng đã vô hiệu hóa phân giải DNS cho miền autologon, là phần thiết yếu trong quá trình xác thực Entra ID.
- Sự cố xác thực: Miền bị xóa chịu trách nhiệm xử lý các yêu cầu đăng nhập tự động. Thiếu miền này, khách hàng đã trải qua các thất bại trong xác thực.
Thời gian gián đoạn
- Thời gian trước khi cập nhật: Người dùng đã tận hưởng quyền truy cập liền mạch qua SSO của Microsoft Entra ID trước khi thay đổi DNS.
- Gián đoạn dịch vụ: Từ 17:18 UTC đến 18:35 UTC vào ngày 25 tháng 2 năm 2025, các yêu cầu xác thực bắt đầu thất bại do miền autologon bị thiếu.
- Can thiệp của Microsoft: Microsoft đã nhanh chóng khôi phục thay đổi, phục hồi các bản ghi DNS và chức năng xác thực.
Bài học kinh nghiệm
- Kiểm tra nghiêm ngặt: Sự cố này nhấn mạnh tầm quan trọng của việc kiểm tra nghiêm ngặt trước khi triển khai thay đổi DNS để tránh các vấn đề không lường trước.
- Giám sát nâng cao: Giám sát DNS theo thời gian thực có thể giúp phát hiện các bất thường sớm, cung cấp thời gian để thực hiện các biện pháp giảm thiểu.
- Giao tiếp rõ ràng: Cập nhật minh bạch qua các trang trạng thái hoặc bản tin nội bộ giúp giữ cho người dùng được thông báo và quản lý kỳ vọng trong thời gian gián đoạn dịch vụ.
- Độ dư và sao lưu: Duy trì cấu hình DNS dự phòng đảm bảo rằng việc quay lại có thể thực hiện mà không gặp phải thời gian dừng dài.
Ý nghĩa rộng rãi trong ngành công nghiệp
- Các vấn đề DNS: Sự cố này không phải là sự kiện đơn lẻ; Microsoft đã phải đối mặt với một số thách thức liên quan đến DNS trong quá khứ, bao gồm một bản ghi DNS SPF cấu hình sai vào tháng 8 năm 2023 và một sự cố toàn cầu vào tháng 4 năm 2021 do các máy chủ DNS Azure quá tải.
Phản ứng của Microsoft
- Đảo ngược ngay lập tức: Microsoft nhận thức được tác động đến khách hàng và doanh nghiệp, nhanh chóng đảo ngược thay đổi DNS để khôi phục phân giải DNS cho miền bị ảnh hưởng.
- Giao tiếp minh bạch: Microsoft đã cập nhật trang trạng thái Azure của mình để thông báo cho khách hàng về sự cố và các biện pháp khắc phục đã thực hiện, cung cấp sự đảm bảo cần thiết rằng dịch vụ đã hoạt động trở lại.
Sự cố này nhấn mạnh tầm quan trọng của việc thử nghiệm tỉ mỉ, thực hành giám sát vững chắc và giao tiếp minh bạch trong việc quản lý các hệ sinh thái đám mây phức tạp.










