เมื่อวันที่ 12 มิถุนายน 2025 Cloudflare ผู้ให้บริการโครงสร้างพื้นฐานอินเทอร์เน็ตรายใหญ่ของโลก แจ้งเหตุการณ์ปัญหาระบบล่มครั้งใหญ่เป็นเวลา 2 ชั่วโมง 28 นาที ส่งผลกระทบต่อเว็บไซต์และแอปพลิเคชันนับล้านทั่วโลก สาเหตุหลักมาจากการที่ Google Cloud ล่มซึ่งเป็นผู้ให้บริการ Cloud ที่ Cloudflare ใช้เก็บข้อมูลบางส่วน
สาเหตุและผลกระทบที่เกิดขึ้น
ปัญหาเริ่มต้นจากระบบ Workers KV ของ Cloudflare ซึ่งเป็นฐานข้อมูลหลักที่ใช้เก็บการตั้งค่าและข้อมูลสำคัญของบริการต่างๆ ระบบนี้พึ่งพาการจัดเก็บข้อมูลผ่าน Google Cloud เป็นหลัก เมื่อ Google Cloud ประสบปัญหา ทำให้ Workers KV ไม่สามารถเข้าถึงข้อมูลได้ อัตราความล้มเหลวสูงถึง 90.22%
การล่มของ Workers KV ส่งผลแบบโดมิโนไปยังบริการอื่นๆ ของ Cloudflare ที่พึ่งพาระบบนี้ รวมถึง:
Cloudflare Access – ระบบจัดการการเข้าถึงองค์กร ล่ม 100% ทำให้พนักงานบริษัทต่างๆ ไม่สามารถเข้าสู่ระบบทำงานได้
WARP – บริการ VPN สำหรับองค์กร ผู้ใช้ใหม่ไม่สามารถลงทะเบียนได้ ผู้ใช้เดิมบางส่วนยังใช้งานได้
Gateway – ระบบกรองและควบคุมการใช้อินเทอร์เน็ตขององค์กร มีปัญหาในการตรวจสอบข้อมูลผู้ใช้
Images และ Stream – บริการจัดการรูปภาพและวิดีโอ อัตราความสำเร็จลดลงเหลือเพียง 3% สำหรับการอัปโหลดรูปภาพใหม่ และ 10% สำหรับการเล่นวิดีโอ
Workers AI – บริการปัญญาประดิษฐ์ หยุดให้บริการ 100%
Cloudflare Dashboard – หน้าเว็บจัดการระบบของลูกค้า ไม่สามารถเข้าใช้งานได้
นอกจากนี้ยังมีบริการอื่นๆ ที่ได้รับผลกระทบ เช่น Durable Objects, D1 Database, Queues, และ Browser Isolation
เหตุการณ์เป็นอย่างไรตามลำดับเวลา
17:52 UTC – ทีม WARP เริ่มพบปัญหาการลงทะเบียนอุปกรณ์ใหม่ไม่ได้
18:05 UTC – ทีม Access ได้รับแจ้งเตือนเรื่องอัตราข้อผิดพลาดเพิ่มขึ้นอย่างรวดเร็ว
18:06 UTC – รวมปัญหาหลายระบบเป็นเหตุการณ์เดียว ยกระดับเป็น P1 (ปัญหาร้าย
18:21 UTC – ยกระดับเป็น P0 (ปัญหาวิกฤติสูงสุด) เมื่อทราบความรุนแรงของผลกระทบ
19:32 UTC – ทีม Access และ Device Posture หยุดการเรียกใช้ Workers KV ชั่วคราวเพื่อลดภาระระบบ
20:23 UTC – บริการเริ่มฟื้นตัวเมื่อระบบจัดเก็บข้อมูลของ Google Cloud กลับมาทำงานปกติ
20:28 UTC – ปัญหาสิ้นสุด ระดับการให้บริการกลับสู่ปกติ
การแก้ปัญหาของ Cloudflare (Disaster Management)
Cloudflare ได้ออกแถลงการณ์ขอโทษอย่างเป็นทางการ โดยระบุชัดเจนว่าแม้สาเหตุโดยตรงจะมาจากผู้ให้บริการภายนอก แต่พวกเขายอมรับความรับผิดชอบในการเลือกใช้บริการและการออกแบบระบบ
โดยทีม Cloudflare แถลงขอโทษอย่างสำหรับเหตุการณ์ในครั้งนี้ “นี่เป็นความล้มเหลวของเรา และแม้ว่าสาเหตุโดยตรงจะมาจากปัญหาของผู้ให้บริการภายนอก แต่เราต้องรับผิดชอบในการเลือกใช้บริการและวิธีการออกแบบระบบโดยถึงพาบริการเหล่านั้น”
บริษัทยืนยันว่าไม่มีข้อมูลสูญหาย และเหตุการณ์นี้ไม่ได้เกิดจากการโจมตีหรือปัญหาด้านความปลอดภัย
แผนการแก้ไขและป้องกัน
Cloudflare ได้เริ่มดำเนินการแก้ไขในหลายด้าน:
ระยะสั้น – ปรับปรุงความยืดหยุ่นของระบบ Workers KV โดยลดการพึ่งพาผู้ให้บริการภายนอกรายเดียว พร้อมทั้งพัฒนาเครื่องมือที่ช่วยให้สามารถเปิดใช้งานระบบค่อยเป็นค่อยไปในขณะที่เกิดปัญหา
ระยะยาว – เร่งการย้ายระบบจัดเก็บข้อมูลไปยัง Cloudflare R2 ซึ่งเป็นบริการของตนเอง เพื่อลดการพึ่งพาบริการภายนอก (3rd Party Vendor) และปรับปรุงการออกแบบระบบของแต่ละผลิตภัณฑ์ให้มีความยืดหยุ่นมากขึ้น
ผลกระทบต่อธุรกิจที่ใช้บริการ
เหตุการณ์ครั้งนี้ส่งผลกระทบต่อองค์กรขนาดใหญ่และเล็กที่ใช้บริการ Cloudflare ในการปกป้องเว็บไซต์ จัดการการเข้าถึงของพนักงาน และใช้บริการ AI
หลายบริษัทพบว่าพนักงานไม่สามารถเข้าสู่ระบบทำงานได้ เว็บไซต์แสดงรูปภาพไม่ครบ และระบบวิเคราะห์ข้อมูลหยุดทำงานชั่วคราว
สำหรับผู้ให้บริการเว็บโฮสติ้งและบริษัทที่พึ่งพาระบบ CDN ของ Cloudflare บางพื้นที่ทั่วโลกประสบปัญหาความล่าช้าและข้อผิดพลาด HTTP 503
บทเรียนจากเหตุการณ์ครั้งนี้
เหตุการณ์ครั้งนี้แสดงให้เห็นว่าแม้แต่ผู้ให้บริการขนาดใหญ่อย่าง Google Cloud ก็ยังสามารถประสบปัญหาได้ ชื่อเสียงและขนาดของบริษัทไม่ใช่การรับประกันว่าจะไม่มีปัญหาเกิดขึ้น สิ่งที่สำคัญกว่าคือการจัดการวิกฤติและความโปร่งใสในการสื่อสาร Cloudflare ได้แสดงให้เห็นถึงมาตรฐานที่ดีซึ่ง ได้แก่
- รับผิดชอบปัญหาอย่างเต็มที่แม้สาเหตุมาจากภายนอก
- สื่อสารความคืบหน้าอย่างโปร่งใสตลอดเหตุการณ์
- วางแผนการแก้ไขที่ชัดเจนทั้งระยะสั้นและระยะยาว
- เผยแพร่รายงานเหตุการณ์ที่ละเอียดสำหรับให้ลูกค้าและสาธารณะได้เรียนรู้
สำหรับองค์กรที่พึ่งพา Cloud เหตุการณ์นี้เป็นเตือนใจว่าการมีแผนสำรองและการเตรียมรับมือกับสถานการณ์ฉุกเฉินเป็นสิ่งจำเป็น ไม่ว่าจะใช้บริการจากผู้ให้บริการรายใดก็ตามครับ
ที่มา: https://blog.cloudflare.com/cloudflare-service-outage-june-12-2025/