Cloudflare承认11月14日的软件更新导致55%的客户日志永久性丢失

Posted on 27 Nov 2024 in Cloudflare News

2024年11月14日Cloudflare日志服务出现故障导致无法输出日志,尽管Cloudflare工程师已经尽力修复,但日志服务依然中断3.5小时并且丢失大约55%的日志,这些日志因为是永久性丢失因此无法恢复。

日志服务通常对网络服务来说至关重要,因为可以通过日志分析访问数据、排查故障和找到潜在的恶意攻击等情况,因此日志服务故障也属于严重问题。

在最新发布的事故调查报告中Cloudflare承认此次故障的主要原因是部署的软件更新存在错误,这导致Cloudflare Logs没有正确向客户发送日志信息。

由于日志通常都是极多的数据所以Cloudflare使用名为Logpush的工具将日志分割成可预测大小的包,这些包再通过合理的节奏推送给客户用于分析。

11月14日Cloudflare工程师对Logpush进行更改支持更多额外的数据集,但这次更改有个致命缺陷:忘记告诉Logfwdr等工具需要给推送给客户,因此日志确实是被收集了但没有推送给客户保存,随后这些日志缓存被清理后就是永久消失。

此次软件更新仅在部署5分钟后Cloudflare工程师就发现了问题并执行回滚,然而这触发了另一个Logfwdr错误:在Logpush混乱的情况下,所有客户的所有日志事件全部都会推送到系统中,而不仅仅是那些已经配置了Logpush定时作业的客户。

由此产生极其庞大的日志导致Cloudflare Logs服务出现异常,由此导致大量日志文件彻底丢失,这些丢失日志文件既没有推送给客户存储,也没有被Cloudflare系统存储保存,所以就是彻底没了。

Cloudflare针对此事道歉并表示部署方案避免此类事件再次发生,不过现在工作尚未全部完成。

The article is copyrighted and should not be reproduced without permission.
Cloudflare
Free global CDN acceleration, suitable for personal webmasters for website acceleration, can also register domain names.
5Heat
5Link
12Article

评论

Related News