您当前的位置:首页 >> 家居资讯

世界杯将是压垮Twitter的最后一根稻草?历经贝尔“血洗”后,全世界在等Twitter宕机

2023-04-28 12:16:38

巴陵机的或许有很多。一位具备10年以上行业成果的SRE阐述了五十多个致使影响因素,包含简单错误字符串或许、硬盘驱动器已满,到大型活动、结构性攻击等等。

虽然现今有或许经常出现,但Twitter还可以暂时列车运行,新近的后下文仍不断涌现。在Twitter工作五年的接入实用性技工(SRE)MatthewTejo在自己的撰文里面简介了Twitter至今从未巴陵机的或许:年前期大量投入的系统会控制设施。Matthew有四年的整整是Twitter栈一个团队里面的的唯一SRE,都由系统会控制、实用性和开始运行工作,设计并发挥作用了大外保持机能列车运行的用以。

栈正因如此着可用者在博客上碰到的大外素材。后下文、所有整整线、从结构性消息、广告、HTTPS等,都是由栈一个团队的客户端都由提供。一旦栈经常出现或许,可用者时会立刻受到显性致使影响。

Matthew加入一个团队后的第一个项目,就是将退役的上新控制器换成新近机器。当时或许就从未也就是说的用以或者系统会控制可选择,Matthew拿到的只有一份标有着客户端地名的可执行。不过现今好栈一个团队的开始运行仍然强化完毕,才会行像当初那么粗糙。

Matthew简介,Twitter意味着栈列车运行的头号多事,就是把它们放在Mesos上以Aurora发包的形式列车运行。Aurora时会发现列车运行应用领域程序的客户端,Mesos则将所有客户端裂解起来以供Aurora感知。Aurora还时会在应用领域程序启动后保持其列车运行。如果说一个栈炮兵部队很难100台客户端,那Aurora就时会尽可能时会保持这100台全部列车运行。

如果客户端出于而会而断开,Mesos能及时样品到或许,将有或许的客户端从裂解水池删掉,这时候Aurora时会知道只有99台栈客户端在列车运行。于是,Aurora时会系统会再行找台客户端互联,将总数维持到100。整个系统设计上半年系统会控制,无需任何人为从结构性参与。

在Twitter的设备,客户端被安置在的设备当里面。的设备上的客户端通过路由器控制器与其他客户端连接。再行往外停下来,这些控制器再行通过路由器和路由器暂时扩展,之后构建起基本的多样子系统、互联互联网。单个的设备可以可容20到30台客户端。其里面的设备可能时会愈演愈烈系统故障、路由器可能时会锈蚀、控制器也可能时会巴陵掉,造成了全部20台客户端接踵而来停机。

Aurora和Mesos另一大劣势就是必要不时会把太多应用领域程序放进同一个的设备。这样即使整个的设备突然停转,Aurora和Mesos也能发现新近的客户端并把应用领域载荷转回过往,不致于致使影响到可用者想像。

“在我之年前提到的可执行里面的,还记录着的设备上的客户端比例。能想像到,年前任政府机构员在努力意味着每个的设备上别塞满太多客户端。而现今我们有了更加强大的用以,很难年中锁定每一台新近互联的客户端,所以整个系统设计就更加顺畅了。这些用以很难必要一个团队在各的设备上均衡部署化学客户端,而且一切都时会以系统故障愈演愈烈时不致于引起大麻烦的方法进行排布。”Matthew暗示。

不过,Mesos不了自行切实样品到每一项客户端系统故障,所以Matthew一个团队还得对芯片或许进行额外的监听,关注存储器和文件系统锈蚀之类的或许。这些情况不一定时会扭转局势整台客户端,但却往往造成了其列车运行缓慢。“我们有一个香港天文台旋钮,可以扫描锈蚀的客户端。一旦样品到某客户端愈演愈烈或许,我们时会系统会创建一项修整侦查,引导的设备的运维工作人员年前往查看。”

栈一个团队还掌握着升级版不可忽视软体(增值)常用伪装栈炮兵部队整整。如果在短整整内有大量客户端被标有为巴陵机,则促请停用栈的新近侦查将被拒绝,直到维持必要。Matthew一个团队希望通过这种方法避免整个栈炮兵部队被停用,进而扭转局势受其保护的增值体系。

他们还克服了香港天文台太多而不会快速停用、不会通过一次确保克服的大规模报错、Aurora找不到足以的新近客户端来可容上新侦查等各类或许。“要为样品到的锈蚀客户端创建修整侦查,我们首再时会检查这项增值来考虑到能否必要删掉其里面的发包。在锈蚀客户端被搬停下来之后,即时会拿到必要标有,由的设备医务工作人员年前往处理事件。处置未完成、标有待机为已修整之后,我们时会再行次可用用以查询并系统会激活该客户端,让它再行度正因如此和列车运行发包。整个系统设计里面,唯一很难的人手就是的设备内的运维医务工作人员(不知道他们还在都是岗)。”Matthew简介道。

另外,段落申领的或许也受益了克服。之年前的一些bug时会造成了不会再行度添加新近的栈客户端(启动时经常出现了竞争必须),比如说可能时会很难长达10分钟才能再行度添加客户端(O(n^n)自然语言)。有了系统会控制子系统处理事件后,一个团队不致于于被迫为了让手动操纵。当然,还有其他系统会修整设计,例如在某些应用领域程序指标(例如延迟)正处于异常值时系统会重启侦查。

Matthew暗示,“栈一个团队每周约莫时会积累下一页的系统故障年度报告,但几乎不出过什么大或许。大多数只能,我们就在那里面的望著值班、望著下班,啥事都不了愈演愈烈。”

输出功率建设工程也是Twitter平台仍在长时间列车运行的不可忽视或许之一。Twitter有两个年中列车运行的的设备,都由正因如此整个接入的系统故障。Twitter的每一项不可忽视增值都可以在其里面一处的设备内单独列车运行,意味着随时都有200%的只用输出功率储备。当然,这是在灾祸维持的场景下;大外整整里面的,两处的设备时会把闲置人力资源拿来正因如此金融业务输出功率大,且利用率超过不至少50%。

即使如此,整个列车运行概念化也更加高峰期。当Matthew一个团队计算自己的输出功率投入生产力时,要再考虑到一处的设备很难多少控制器来正因如此全部输出功率大,再行依此基础上额外减小确保必要。所以只要都是系统故障转回上半年,就时会有大量客户端密闭常用正因如此额外输出功率大。的设备愈演愈烈整体系统故障的情况更加罕见,Matthew担任的五年里面只经历过一次。

栈一个团队还把栈炮兵部队剥留在来,并从未为了让用单一多租户炮兵部队来正因如此所有增值,而是在应用领域程序一般而言进行隔离。这点更加不可忽视,因为一旦某个炮兵部队经常出现或许,它的引爆曲率半径也只在自身范围内,即仅致使影响正处于同一位置的外客户端。同样地,Aurora时会提供栈产于,尽可能时会控制致使影响范围,之后监听并及时加以修整。

“所以大家应当知道了,我们这帮白痴可从未偷懒。我们跟栈即增值一个团队随时交流,尽可能时会主导系统会控制系统设计,研究成果了不少有趣的稳定性或许,尝试引入能缓解体验的技术,并主导了一系列大型开发成本节约项目。我们进行输出功率建设工程、考虑到很难交货的客户端比例,总之挺忙的。此番,我们不像很多人想象的那样天天摸鱼、打游戏就能拿较低薪。”Matthew在撰文仍要打趣道。

“恰恰相反,该博客在如此大规模裁员后仍能上半年列车运行这一事实证明了从结构性参与确保基础设施的每一位专业工作人员都表现卓越!”有网友口碑道。

详见链接:

https://www.theguardian.com/technology/2022/nov/19/twitter-crashing-world-cup-elon-musk-social-media-traffic-spikes

https://www.theverge.com/2022/11/17/23465274/hundreds-of-twitter-employees-resign-from-elon-musk-hardcore-deadline

https://threadreaderapp.com/thread/1593541177965678592.html

https://matthewtejo.substack.com/p/why-twitter-didnt-go-down-from-a

颞下颌关节疼痛怎么办
类风湿治疗药艾得辛和甲氨蝶呤可以一起吃吗
儿童积食消化不良怎么办?看来你还没用过这种方法
肠胃炎拉肚子拉稀了怎么办
复方鳖甲软肝片疗效怎么样
友情链接