世界杯将是压垮Twitter的最后一根稻草？历经马斯克“血洗”后，全世界在等Twitter宕机

时间：2022-12-04 16:56:34 来源：新浪网作者：AI前线

欢迎关注“新浪科技”的微信订阅号：techsina

整理/褚杏娟、核子可乐

来源：AI前线（ID:ai-front)

有报道称，卡塔尔世界杯可能是压垮Twitter的最后一根稻草。一位离职的Twitter员工对外媒表示，Twitter有50%的概率会在为期29天的世界杯期间发生重大服务中断。他认为，Twitter在世界杯期间肯定会发生一些事故，比如服务响应缓慢或错误，用户能看到的概率有90%。

当被问及Twitter有什么计划来解决世界杯期间可能出现的问题时，他说：“据我所知没有。我们本应该在几周前就开始准备了。”

关键运行团队离开，Twitter故障问题初显

曾应对过2014年世界杯的Twitter前软件工程师JohnIoannidis表示，即使拥有最好的设备和硬件，突然涌入的流量也会造成问题。根据Ioannidis介绍，2014年巴西世界杯时，Twitter一直在监控自己的基础设施，以确保整个世界杯期间保持在线。据悉，2010年世界杯期间，Twitter就因无法应对高流量而下线。

对比赛期间可能出现的高流量，萨里大学网络安全教授AlanWoodward感到十分担忧，“Twitter现在似乎在赌运气，根据我的经验，这不是一种可靠的方法。”

而实际上，在世界杯开始前，已经有迹象表明Twitter背后错综复杂的基础设施已经出现问题，如转发无法正常使用、双重身份验证报错致难以登陆、保存的草稿莫名被删除等。

当然，造成这些担忧和问题的直接原因就是现在的Twitter确实没有足够的工程师来进行准备和维护工作。据媒体称，Twitter负责流量高峰期管理网站的团队已经有三分之一的工程师离职，另外Twitter核心系统库的团队也已经解散，有前员工形容“没有这个团队，你就无法运营Twitter。”其他如前端团队、API团队等也都没有幸免于难。

“我知道有六个关键系统（比如推送的关键系统）已经没有任何工程师了”，有Twitter的前员工表示，“这个系统甚至不再有骨干人员。它会继续自动运行，直到遇到什么东西，然后就会停下来。”

实际上，在3500名员工被裁、2000多人主动离职后，Twitter原来维护网站正常运行的几个关键团队都部分或全部解散。其中，在马斯克发出“最后通牒”后辞职的员工中，许多人是Twitter最有经验的员工，甚至有些人在Twitter工作的时间是这家公司存在时间的一半。

有Twitter员工透露，由于目前维护关键服务的全天候轮班员工不够用，这部分员工已经开始外出“借人”，试图通过培训公司其他部门的同事来帮助减轻工作量。另一方面，马斯克的“铁血裁员”也落下了帷幕，目前开始正在招聘工程师和广告销售人员。“在关键的招聘方面，我想说那些擅长编写软件的人是最优先的。”马斯克在最近的全体员工大会上表示。

“最优秀的人都留下来了，所以我不是特别担心。”马斯克18日发推说道。

虽然马斯克很乐观，但网上很多开发者认为Twitter出现故障在所难免。“他（马斯克）有从根本上改变堆栈的宏伟愿景。他的更改不会有适当的测试，因为所有高级工程师都离开了，他的SRE员工不在那里监控新功能或进行容量规划。所以剩下的很多将是拥有H1B签证的工程师，他们不能离开，无法反驳马斯克的要求，而且会过度劳累，变得足够‘硬核’，无情地工作、精疲力尽、不做应有的努力。Twitter将出现一些重大中断，过去处理过这些事件的大多数人都离开了。因此，这将比我们以往看到的任何情况都更严重、持续时间更长。”

当然也有开发者表示，“如果什么都不改变，那么什么都不会破坏。我想如果有什么问题的话，他们会在部署新东西同时不破坏其他功能时遇到问题。问题将发生在开发服务器上，而不是生产服务器上。”

伦敦大学教授StevenMurdoch认为，Twitter将难以处理复杂的故障。他表示，即使公司雇用新员工或重新分配现有员工的任务，而且交接过程顺利，这些人了解相关系统的工作方式也可能需要几个月的时间。

马斯克发布的Twitter“架构图”

为什么还没有宕机？

从硬件到软件/代码，可能导致Twitter宕机的原因有很多。一位拥有10年以上行业经验的SRE总结了五十多个影响因素，包括简单错误代码问题、硬盘驱动器已满，到大型活动、外部攻击等等。

虽然现在有问题出现，但Twitter还可以继续运行，新的推文仍不断涌现。在Twitter工作五年的站点可靠性工程师（SRE）MatthewTejo在自己的文章中介绍了Twitter至今没有宕机的原因：前期大量投入的自动化设施。Matthew有四年的时间是Twitter缓存团队里的唯一SRE，负责自动化、可靠性和运营工作，设计并实现了大部分保持功能运行的工具。

缓存承载着用户在网站上看到的大部分内容。推文、所有时间线、直接消息、广告、身份验证等，都是由缓存团队的服务器负责提供。一旦缓存出现问题，用户会立刻受到显性影响。

Matthew加入团队后的第一个项目，就是将退役的旧设备换成新机器。当时根本就没有相应的工具或者自动化选项，Matthew拿到的只有一份标记着服务器名称的电子表格。不过现在好缓存团队的运营已经升级完毕，不再像当初那么粗糙。

Matthew介绍，Twitter保证缓存运行的头号大事，就是把它们放在Mesos上以Aurora作业的形式运行。Aurora会找到运行应用程序的服务器，Mesos则将所有服务器聚合起来以供Aurora感知。Aurora还会在应用程序启动后保持其运行。如果说一个缓存集群需要100台服务器，那Aurora就会尽量保持这100台全部运行。

如果服务器出于某种原因而断开，Mesos能及时检测到问题，将有问题的服务器从聚合池中删除，这时候Aurora会知道只有99台缓存服务器在运行。于是，Aurora会自动再找台服务器接入，将总数恢复到100。整个流程全面自动化，无需任何人为参与。

在Twitter数据中心，服务器被安置在机架当中。机架上的服务器通过交换机设备与其他服务器连接。再往外走，这些设备再通过交换机和路由器继续扩展，最终建立起完整的复杂系统、接入互联网。单个机架可以容纳20到30台服务器。其中机架可能发生故障、交换机可能损坏、电源也可能宕掉，导致全部20台服务器陷入停机。

Aurora和Mesos另一大优势就是确保不会把太多应用程序放进同一个机架。这样即使整个机架突然停转，Aurora和Mesos也能找到新的服务器并把应用负载转移过去，不致影响到用户感受。

“在我之前提到的电子表格里，还记录着机架上的服务器数量。能感受到，前任管理员在努力保证每个机架上别塞进太多服务器。而现在我们有了更强大的工具，能够持续追踪每一台新接入的服务器，所以整个流程就更顺畅了。这些工具能够确保团队在各机架上均衡部署物理服务器，而且一切都会以故障发生时不致引起大麻烦的方式进行排布。”Matthew表示。

不过，Mesos没办法切实检测到每一项服务器故障，所以Matthew团队还得对硬件问题进行额外的监控，关注磁盘和内存损坏之类的问题。这些情况不一定会拖垮整台服务器，但却往往导致其运行缓慢。“我们有一个警报仪表板，可以扫描损坏的服务器。一旦检测到某服务器发生问题，我们会自动创建一项修复任务，引导数据中心的运维人员前往查看。”

缓存团队还掌握着另一款重要软件（服务）用于跟踪缓存集群时间。如果在短时间内有大量服务器被标记为宕机，则要求关闭缓存的新任务将被拒绝，直到恢复安全。Matthew团队希望通过这种方式避免整个缓存集群被关闭，进而拖垮受其保护的服务体系。

他们还解决了警报太多而无法快速关闭、无法通过一次维护解决的大规模报错、Aurora找不到足够的新服务器来容纳旧任务等各类问题。“要为检测到的损坏服务器创建修复任务，我们首先会检查这项服务来确定能否安全删除其中的作业。在损坏服务器被清空之后，即会获得安全标记，由数据中心技术人员前往处理。处置完成、标记切换为已修复之后，我们会再次使用工具查找并自动激活该服务器，让它重新承载和运行作业。整个流程中，唯一需要的人手就是数据中心内的运维技术人员（不知道他们还在不在岗）。”Matthew介绍道。

另外，重复申请的问题也得到了解决。之前的一些bug会导致无法重新添加新的缓存服务器（启动时出现了竞争条件），有时候可能需要长达10分钟才能重新添加服务器（O（n^n）逻辑）。有了自动化系统处理后，团队不致于被迫选择手动操作。当然，还有其他自动修复设计，例如在某些应用程序指标（例如延迟）处于异常值时自动重启任务。

Matthew表示，“缓存团队每周大概会积累下一页的故障报告，但几乎不出过什么大问题。大多数情况下，我们就在那里静静值班、静静下班，啥事都没发生。”

容量规划也是Twitter平台仍在正常运行的重要原因之一。Twitter有两个持续运行的数据中心，负责承载整个站点的故障。Twitter的每一项重要服务都可以在其中一处数据中心内单独运行，意味着随时都有200%的可用容量储备。当然，这是在灾难恢复的场景下；大部分时间里，两处数据中心会把闲置资源拿来承载业务流量，且利用率最多不超过50%。

即使如此，整个运行实践也非常繁忙。当Matthew团队计算自己的容量需求时，要先确定一处数据中心需要多少设备来承载全部流量，再以此为基础额外增加净空。所以只要不在故障转移期内，就会有大量服务器空间用于承载额外流量。数据中心发生整体故障的情况非常罕见，Matthew任职的五年中只经历过一次。

缓存团队还把缓存集群剥离开来，并没有选择用单一多租户集群来承载所有服务，而是在应用程序层级进行隔离。这点非常重要，因为一旦某个集群出现问题，它的爆炸半径也只在自身范围内，即仅影响处于同一位置的部分服务器。同样地，Aurora会提供缓存分布，尽可能控制影响范围，最终监控并及时加以修复。

“所以大家应该知道了，我们这帮家伙可没有偷懒。我们跟缓存即服务团队随时交流，尽量推动自动化流程，研究了不少有趣的性能问题，尝试引入能改善体验的技术，并推动了一系列大型成本节约项目。我们进行容量规划、确定需要订购的服务器数量，总之挺忙的。反正，我们不像很多人想象的那样天天摸鱼、打游戏就能拿高薪。”Matthew在文章最后打趣道。

“恰恰相反，该网站在如此大规模裁员后仍能全面运行这一事实证明了参与维护基础设施的每一位专业人员都表现卓越！”有网友评价道。

参考链接：

https：//www.theguardian.com/technology/2022/nov/19/twitter-crashing-world-cup-elon-musk-social-media-traffic-spikes

https：//www.theverge.com/2022/11/17/23465274/hundreds-of-twitter-employees-resign-from-elon-musk-hardcore-deadline

https：//threadreaderApp.com/thread/1593541177965678592.html

https：//matthewtejo.substack.com/p/why-twitter-didnt-go-down-from-a

Tags：Twitter 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

一年蒸发大半估值——马斯克收购Twitter的这一年

《中国经济周刊》记者周瑞峰实习生郭雨澍在被埃隆·马斯克(Elon Musk)收购一年后，社交媒体平台X（原Twitter）的股权估值为190亿美元，不及当时收购价格的的一半。两位...【详细内容】

2023-11-03　　Search: Twitter 点击:(85)　　评论:(0)　　加入收藏

如何看待Twitter前CEO提出的Web5？

金色财经撰文：HAOTIAN-CRYPTOINSIGHT 编译：@TocentrelessTwitter 前 CEO Jack Dorsey@jack 的新项目 @TBD54566975 直接抛出了 web5 的概念，那么，web4 去哪里了？web1 是只读，web2...【详细内容】

2023-08-16　　Search: Twitter 点击:(51)　　评论:(0)　　加入收藏

Twitter 在苹果应用商店已更名为 X

IT之家 7 月 31 日消息，Twitter 应用今日在苹果 App Store 已经更名为 X，这意味着该公司可能获得了苹果的特批，因为此前 App Store 明确规定应用名称至少需要两个字母。IT之家...【详细内容】

2023-07-31　　Search: Twitter 点击:(77)　　评论:(0)　　加入收藏

Twitter起诉一批不知名实体：涉嫌非法抓取数据

新浪科技讯北京时间7月14日早间消息，据报道，上周Twitter母公司X Corp起诉一批不知名实体，主要是这些实体非法采集Twitter数据。很多企业会利用自动化程序从可以公开访问的网站...【详细内容】

2023-07-14　　Search: Twitter 点击:(87)　　评论:(0)　　加入收藏

Threads注册破亿，速度超ChatGPT，Twitter流量下滑

扎克伯格宣布，仅用5天，Threads的注册人数在周末达到1亿。这比ChatGPT的两个月内月用户数过亿还要飞速。这也是由于Threads与Instagram的数据安全互通。Threads推出以来，Twitter...【详细内容】

2023-07-11　　Search: Twitter 点击:(127)　　评论:(0)　　加入收藏

马斯克称Twitter限制浏览量是在帮用户“戒网瘾”？网友：大可不必！

Twitter闹剧继续，竞争对手们又乐开花了。文| Juny 来源| 硅星人事情大家可能都知道了。最近消停了一阵的Twitter，这周末又占领了海外媒体、社交平台的头版头条。原因简单而又...【详细内容】

2023-07-04　　Search: Twitter 点击:(98)　　评论:(0)　　加入收藏

Twitter新任CEO制定新计划：扭转广告业务颓势挽回马斯克放弃的广告主

新浪科技讯北京时间6月30日早间消息，Twitter新任首席执行官琳达·亚卡里诺（Linda Yaccarino）正准备采取一系列措施，以挽回在埃隆·马斯克（Elon Musk）收购Twitter后放...【详细内容】

2023-06-30　　Search: Twitter 点击:(93)　　评论:(0)　　加入收藏

Twitter联合创始人多西：马斯克有些鲁莽新功能考虑不周

新浪科技讯北京时间6月13日早间消息，据报道，Twitter联合创始人杰克·多西（Jack Dorsey）去年离开Twitter董事会。最近他接受采访，谈到了马斯克，他认为马斯克运营Twitter的一...【详细内容】

2023-06-13　　Search: Twitter 点击:(94)　　评论:(0)　　加入收藏

Twitter新CEO分享公司2.0愿景：做“世界上最准确的实时信息源”

新浪科技讯北京时间6月13日早间消息，据报道，新上任的Twitter首席执行官琳达·雅卡里诺（Linda Yaccarino）分享了她的Twitter2.0愿景——愿景看起来很像Twitter...【详细内容】

2023-06-13　　Search: Twitter 点击:(74)　　评论:(0)　　加入收藏

一路走低！Twitter估值只有马斯克收购价的三分之一

新浪科技讯北京时间5月31日早间消息，据报道，最近富达（Fidelity）下调了Twitter的股权估值，它认为，相比马斯克收购Twitter时支付的价格，现在Twitter的估值只有当时的三分之一。当初...【详细内容】

2023-05-31　　Search: Twitter 点击:(63)　　评论:(0)　　加入收藏

▌简易百科推荐

美国通胀再度“爆表”背后：抗通胀陷入“持久战” 利率更高更久恐成现实？

抗通胀“最后一公里”的艰巨性远超预期，摆在美联储面前的是一段愈发泥泞不堪的道路，降息前景也愈发扑朔迷离。继上周强劲的非农就业报告之后，3月CPI数据再度“爆表”。美国劳工...【详细内容】

2024-04-12　　　　21世纪经济报道　　Tags:美国通胀　点击:(2)　　评论:(0)　　加入收藏

通胀风暴席卷华尔街：黄金、石油、大宗商品全线飙升！美联储软着陆梦碎？

汇通财经APP讯——周三（4月10日）公布的高于预期的消费者价格指数（CPI）数据加剧了市场的不安，引发了股市和债市的震荡，随之而来的是对未来走势的担忧。黄金、和受到青睐...【详细内容】

2024-04-11　　　　和讯网　　Tags:通胀　点击:(2)　　评论:(0)　　加入收藏

拜登坐不住了？罕见对美联储货币政策表态

周三公布的连续3个月高于预期的通胀数据对于拜登来说是灾难性的，因为高通胀和高失业率往往会影响总统的连任机会。拜登罕见公开“打赌”预测美联储年底前将降息。美国3月CPI...【详细内容】

2024-04-11　　　　华尔街见闻　　Tags:拜登　点击:(4)　　评论:(0)　　加入收藏

美联储透露重磅信号，酝酿“很快”开始减慢缩表！道指跌超400点，黄金也“熄火”

每经编辑毕陆名美东时间周三，美股三大指数集体下跌，截至收盘，道指跌1.09%（跌422.16点），纳指跌0.84%，标普500指数跌0.95%。数据方面，美国盘前公布3月CPI同比上升3.5%，高于市场预期的3...【详细内容】

2024-04-11　　　　每日经济新闻　　Tags:美联储　点击:(3)　　评论:(0)　　加入收藏

美联储降息或再延期大类资产配置逻辑生变

4月10日，北京时间周三晚间美国3月份CPI公布为3.5%，较2月份3.2%有所上升，也高于预期值3.4%。美联储降息或再度延期，受此影响，美元强劲，美债大涨，而美股下跌，大宗商品分化，短期对全球市...【详细内容】

2024-04-11　　　　Wind万得　　Tags:美联储　点击:(2)　　评论:(0)　　加入收藏

美国3月CPI数据全线高于预期 6月首降希望基本破灭

财联社4月10日讯（编辑牛占林）当地时间周三，美国劳工部公布的数据显示，因汽油和住房价格上涨，美国基础通胀率连续第三个月超预期，强化了美联储在降息方面的谨慎态度。有不少分析师...【详细内容】

2024-04-10　　　　财联社　　Tags:CPI 　点击:(2)　　评论:(0)　　加入收藏

微软被点名批评：34 页报告称其安全措施不到位

IT之家 4 月 10 日消息，美国网络安全审查委员会（CSRB）近日发布了 34 页安全报告，点名批评微软安全措施不够到位，导致来自美国 22 个组织、影响 500 多人的电子邮件被泄露。该安全...【详细内容】

2024-04-10　　　　IT之家　　Tags:微软　点击:(4)　　评论:(0)　　加入收藏

尾盘：美股继续下滑市场等待通胀数据

北京时间10日凌晨，美股周二尾盘继续下滑。在3月CPI与PPI等关键通胀数据公布前，市场情绪谨慎。摩根大通等大型银行将在本周公布财报，由此拉开美股一季报的帷幕。道指跌180.19点，...【详细内容】

2024-04-10　　　　环球市场播报　　Tags:美股　点击:(6)　　评论:(0)　　加入收藏

大消息！巴菲特，突然出手！

“股神”巴菲特突然出手。最新消息称，巴菲特旗下伯克希尔·哈撒韦公司已正式申请发行日元优先票据。巴菲特的这一最新举动，瞬间引发市场猜测，其可能会进一步增加在日本股...【详细内容】

2024-04-09　　　　券商中国　　Tags:巴菲特　点击:(5)　　评论:(0)　　加入收藏

美联储年内可能不降息？美股美债投资者开始调整投资策略

作者：后歆桐[ 在上周非农就业数据再次意外强劲后，芝商所（CME）美联储观察工具显示，市场对于美联储6月首次降息的可能性从一周前的55.2%降至50.8%。 ]自从去年秋天美联储暗示降息...【详细内容】

2024-04-09　　　　第一财经　　Tags:美联储　点击:(6)　　评论:(0)　　加入收藏

推荐资讯

早高峰打“飞的”有多	JavaScript的异步编程
Rust编程语言的内存安	数字人破解跨境直播难
Meta确认5月发布Llama	ChatGPT 应用商店？可能
社交网络与Web3：数字社	速查微信聊天最频繁对