2025 年 11 月 18 日,全球最大的 CDN 与网络安全服务商之一 Cloudflare 发生了一次罕见的大规模故障,导致世界各地大量网站无法访问、频繁出现 5xx 报错。这次事故被官方称为 自 2019 年以来最严重的宕机。

这已经是继 AWS、Azure 相继出现全球级事故后的又一起互联网基础设施“大地震”。
1. 发生了什么?
UTC 时间 11:20 左右,Cloudflare 的核心流量系统突然出现异常,全球大量网站都开始返回 HTTP 500 系列错误。
用户访问的网站不是打不开,就是显示经典的 Cloudflare 错误提示页。
Cloudflare 随后确认:
✔ 不是黑客攻击
✔ 不是 DDoS
❌ 是内部配置错误导致的连锁反应
技术团队紧急介入,直到 14:30 大部分系统恢复,17:06 全部服务才完全正常。
2. 影响了哪些网站?
由于 Cloudflare 是世界上使用最广泛的 CDN 服务之一,这次事故波及面极大。
受影响的网站和服务包括:
- ChatGPT
- X(原 Twitter)
- Spotify
- 大型游戏服务
- 零售、电商网站
- 公共交通系统
- 各类使用 Cloudflare 加速或安全防护的网站
几乎所有依赖 Cloudflare 的平台,都出现访问失败、加载缓慢或 5xx 报错。
3. 哪些 Cloudflare 产品受影响?
(1)CDN 与安全防护
用户直接看到 5xx 错误,网站无法访问。
(2)Turnstile 验证服务
完全无法加载,连 Cloudflare 自己后台登录都受影响。
(3)Workers KV
出现大量失败请求,功能可用性急剧下降。
(4)Dashboard 后台
登录困难、延迟明显升高。
(5)Email Security
垃圾邮件识别准确度暂时下降。
(6)Access 身份验证
大部分用户无法完成认证。
在故障期间,Cloudflare 网络延迟明显增加,因为系统大量资源被调试工具占用。
4. 为什么会宕机?(简单版)
Cloudflare 官方解释非常技术化,这里用一句话概括:
一次数据库权限修改 → 生成了超大配置文件 → 核心代理程序无法处理 → 全球服务崩溃。
也就是说,这不是攻击,不是故意行为,而是 一行配置引发的全球大事故。
5. Cloudflare 是怎么修复的?
Cloudflare 工程师在事故期间采取了多项动作:
- 停止分发错误的配置文件
- 回滚到之前稳定的版本
- 为关键服务启用旁路模式
- 重启核心代理节点
- 加速全网恢复
- 修复后台登录与认证排队问题
到下午 5 点,所有服务全部恢复。
6. 关键时间线(UTC)
- 11:05:数据库权限变更开始部署
- 11:28:全球出现 5xx 报错
- 11:32–13:05:工程团队排查,以为是 KV 系统异常
- 13:05:启用绕过机制,暂时缓解
- 13:37:确认出问题的是「Bot Management 配置文件」
- 14:24:停止推送新配置文件
- 14:30:主要服务恢复
- 17:06:全部恢复正常,事故结束
7. Cloudflare 的反思与后续改进
官方表示将重点改进以下方面:
- 加强对自动生成配置文件的监控
- 推出更多全局“熔断”开关
- 避免错误日志过度占用资源
- 深入审查所有核心代理模块的失败模式
结语
这次 Cloudflare 宕机,再次说明:
互联网最危险的,从来不是黑客,而是“自己的一次配置修改”。
在一个全球化、分布式的网络世界里,一小段错误配置,就可能让整个互联网短暂停摆。
稳定,从来不是理所当然,而是无数系统、无数工程师每天小心维护的结果。
如需查看更多官方信息:
Cloudflare 报告:https://blog.cloudflare.com/18-november-2025-outage





















