微软蓝屏搞瘫全球,马斯克很生气,原因很尴尬
史上最大IT宕机
金磊 发自 凹非寺
量子位 | 公众号 QbitAI
家人们,见证历史了。
微软蓝屏(BSOD)的消息毫不夸张地登顶各大热搜、热榜,全球打工人被迫狂欢喜提1天休假。
然而随着事件的发酵,导致这次全球最大IT宕机的罪魁祸首也逐渐浮出了水面。
不过非常drama的是,“元凶”竟然是一家网络安全巨头,CrowdStrike。
是自称能拥有检测网络威胁“最快平均时间”的那种实力选手,《财富》1000里500多家企业都是它的客户。
但更drama的是,它只是向Windows发送了一个更新……
(果然,世界就是一个巨大的草台班子)
微软作为直接受害者,股价在收盘之际也是跌跌跌。
事件影响之大,波及面涵盖航空公司、电视广播、银行等众多行业。
例如布拉格机场表示,受大量航空公司使用的全球值机系统中断的影响一些航班延误;美联航也表示所有飞机已经停飞。
香港机场的自助登机设施也受到了影响,只能全部改为人工。
甚至连奥运会组委会都表示“影响了制服和认证的交付”……总而言之,全球几乎出现了瘫痪的情况。
马斯克也是连连公开表态:
史上最大IT事故,没有之一。
已经在公司所有系统中删除了CrowdStrike的软件。
那么CrowdStrike的这个更新到底干了什么?
一个更新导致的全球蓝屏
其实更具体一点来说,这次全球蓝屏的始作俑者是CrowdStrike的旗舰产品Falcon。
Falcon是一个用云的方式将多个安全解决方案集成到一起的平台,包括防病毒功能、端点保护、威胁检测和实时监控等等。
在事情严重发酵之后,Falcon和CrowdStrike CEO George Kurtz对此做出了进一步的解释说明。
一言蔽之:
全球蓝屏是由Windows主机的Falcon内容更新bug引起的。
这是一个针对Windows系统的传感器配置更新,是Falcon平台保护机制的一部分。
但触发了一个逻辑错误,导致受影响的系统出现系统崩溃和蓝屏。
George Kurtz强调说“这不是安全事件或网络攻击,我们已经发现并且隔离了这个bug,还部署了修复程序”。
好巧不巧,他还补刀了一句:
Mac和Linux不受影响。
然后微软这边,CEO纳德拉也赶忙出来说明:
我们意识到了这个问题,并正在与CrowdStrike和整个行业密切合作,安全地让他们的系统重新上线。
BUT!
纳德拉的推文立即引来了马斯克的怼怼怼:
这给汽车供应链带来了困境。
至于目前Bug修复的进展,CrowdStrike今天在官网上发布了最新说明。
从声明中来看,受此次影响的系统包括运行Windows 7.11及更高版本,并且在昨天北京时间12:09-13:27期间下载更新了Falcon传感器配置的。
但这个配置的更新频率吧……按照官方的说法是,每天都会更新几次……
这个文件在Windows系统中的路径是:
C:WindowsSystem32driversCrowdStrike
并且文件名以“ C- ”开头,每个通道文件(channel file)都分配了一个编号作为唯一标识符。
而这次出了大bug的文件,则是通道文件“291”,文件名以“ C-00000291- ”开头,以 .sys 扩展名结尾。
也正是因为Mac和Linux系统中不使用“291”通道文件,因此完美避开了这次的大宕机。
至于大家最关心的问题:啥时候能修好啊?
CrowdStrike的回答是:
我们正在进行彻底的根本原因分析。
这项工作将持续进行,并会更新原因分析。
而根据《网络安全哲学》书作者Lukasz Olejnik估计,这个大bug可能还需要几天到几周才能解决:
因为IT管理员可能必须对设备进行物理访问才能让他们重新工作。这种情况发生的速度取决于公司IT团队的规模和资源。
在某些特定情况下,某些系统可能无法恢复,但我认为大多数系统将被恢复。
敲响了一个警钟
不过对于这件事情,我们不能仅仅是一个看热闹的态度,还是需要痛定思痛。
正如Lukasz Olejnik追述的那般:
我们的软件具有极其的联系和相互依存性,当一个组织出现软件单一化的时候,就可能会存在大量的单点故障。
即使是像CrowdStrike这样成立了13年、已经跻身网络安全巨头的公司,手握众多公司安全命脉,曾经屡破各种重大网络攻击,也难免马失前蹄犯下如此弥天大错。
也正如环球网在今天发布的社评所述:
网络风险是一种全球性挑战,没有哪个国家能够置身事外、独善其身。
即便是世界性的互联网头部企业,也难以依靠自身力量解决系统性网络风险和危机。
总而言之,在科技日新月异的当下,不论是操作系统,亦或是主流大模型等等,还需谨记一点——
科技道路千万条,安全第一条。
One More Thing
就在这两天,还出现了非常搞笑的一些事儿和段子(暂不论真假)。
例如一位网友分享了他昨天在CrowdStrike第一天上班,然后……就下班了。
更搞笑的是,他被开除了。
还有网传的拉斯维加斯的大球(Sphere),也蓝屏了……
参考链接:
[1]https://www.theverge.com/2024/7/19/24201717/windows-bsod-crowdstrike-outage-issue
[2]https://www.theverge.com/2024/7/19/24201864/crowdstrike-outage-explained-microsoft-windows-bsod
[3]https://x.com/vinceflibustier/status/1814233715641389456
[4]https://x.com/elonmusk/status/1814334171701014848
[5]https://x.com/elonmusk/status/1814251919096811824
[6]https://www.crowdstrike.com/blog/technical-details-on-todays-outage/
[7]https://mp.weixin.qq.com/s/T2Ll9HlUYRCOZ6HkbmDsOw
- 罕见!云计算一哥CTO,现场不发产品只讲教训2024-12-06
- 清华系初创面壁智能获新一轮数亿元融资2024-12-11
- 马斯克新文生图模型闪现!网友抢时间疯狂实测:人物生成超逼真,可算把赛博皮卡画明白了2024-12-09
- “云计算一哥”一口气发布6个大模型、3nm芯片!多模态还要搞Any-to-Any2024-12-04