Cloudflare gặp sự cố lớn vào ngày 18/11 do một tệp cấu hình sai được sinh ra sau khi điều chỉnh quyền cơ sở dữ liệu, gây lỗi hệ thống proxy lõi và làm gián đoạn nhiều dịch vụ; đội ngũ khắc phục bằng cách quay lại tệp cũ và phục hồi toàn bộ dịch vụ vào 00:06 (giờ Việt Nam) ngày 19/11.
Sự cố ban đầu bị nhầm là tấn công DDoS. Cloudflare khẳng định sự cố không chấp nhận được và sẽ đẩy nhanh nâng cấp độ bền hệ thống để giảm rủi ro tương tự trong tương lai.
- Lỗi do tệp cấu hình sai sau khi thay đổi quyền cơ sở dữ liệu, gây ảnh hưởng hệ thống proxy lõi.
- Nhiều dịch vụ bị tác động: CDN, bảo mật, Workers KV, Turnstile, Access.
- Đã khắc phục bằng rollback; toàn bộ dịch vụ hoạt động trở lại lúc 00:06 (giờ Việt Nam) ngày 19/11; sẽ tăng cường độ bền hệ thống.
Nguyên nhân chính của sự cố
Trả lời trực tiếp: Sự cố phát sinh từ một tệp cấu hình sai được tạo sau khi điều chỉnh quyền cơ sở dữ liệu, dẫn tới bất thường trong hệ thống proxy lõi.
Phân tích: Khi thay đổi quyền truy cập cơ sở dữ liệu tạo ra tệp cấu hình không đúng, thành phần proxy lõi gặp lỗi khiến luồng xử lý yêu cầu bị gián đoạn. Vấn đề thuộc về vòng quản lý cấu hình và kiểm soát thay đổi, không phải do lưu lượng tấn công bên ngoài.
“Sự cố nghiêm trọng này bắt nguồn từ một tệp cấu hình không chính xác sinh ra sau điều chỉnh quyền trong cơ sở dữ liệu, ảnh hưởng tới nhiều sản phẩm và dịch vụ.”
Cloudflare, blog chính thức
Phạm vi ảnh hưởng
Trả lời trực tiếp: Các dịch vụ chịu ảnh hưởng bao gồm CDN, dịch vụ bảo mật, Workers KV, Turnstile và Access.
Phân tích: Lỗi proxy lõi khiến nhiều sản phẩm tầng mạng và kiểm soát truy cập không xử lý được yêu cầu, gây gián đoạn dịch vụ cho người dùng và khách hàng doanh nghiệp. Việc ban đầu nhầm lẫn thành tấn công DDoS cho thấy tín hiệu giám sát cần phân biệt nguyên nhân kỹ thuật và tấn công mạng rõ ràng hơn.
Quy trình khắc phục và bài học
Trả lời trực tiếp: Đội ngũ đã khắc phục bằng cách quay lại phiên bản tệp cấu hình trước đó; tất cả dịch vụ được phục hồi vào 00:06 (giờ Việt Nam) ngày 19/11.
Phân tích: Rollback là bước nhanh chóng để khôi phục dịch vụ, nhưng bài học cần rút ra là hoàn thiện kiểm tra trước khi áp thay đổi, tăng kiểm soát quản lý cấu hình, cải thiện tự động hoá kiểm thử, và củng cố quy trình phát hiện phân loại sự cố để tránh đánh giá sai nguồn gốc.
Làm gì để giảm rủi ro tương tự?
Áp dụng kiểm thử thay đổi (change testing), triển khai canary release, theo dõi chỉ số lõi, và có kế hoạch rollback tự động giúp giảm nguy cơ lỗi cấu hình gây gián đoạn rộng.
Các câu hỏi thường gặp
Sự cố xảy ra khi nào và khi nào dịch vụ được khôi phục?
Sự cố phát sinh ngày 18/11; toàn bộ dịch vụ được phục hồi vào 00:06 (giờ Việt Nam) ngày 19/11.
Nguyên nhân chính là gì?
Nguyên nhân là một tệp cấu hình không chính xác được sinh sau khi điều chỉnh quyền cơ sở dữ liệu, gây lỗi hệ thống proxy lõi.
Dịch vụ nào bị ảnh hưởng?
Bị ảnh hưởng gồm CDN, dịch vụ bảo mật, Workers KV, Turnstile và Access.
Cloudflare có hành động gì để ngăn tái diễn?
Cloudflare cho biết sẽ đẩy nhanh nâng cấp độ bền hệ thống, cải thiện quản lý cấu hình và quy trình phát hiện sự cố để giảm rủi ro tương tự.