男生: 哈喽大家好欢迎来到我们的播客。啊今天我们就来聊一聊淘宝双十一大促背后那些。为了保障软件服务的稳定性,而付出的努力。
女生: 听上去就很有意思那我们就直接开始吧直接开始嗯看看这稳定运行的背后到底有哪些。关键的东西。
男生: 咱们就先来说说今年这个淘宝双十一大促稳定性保障这个项目。他的目标到底是什么啊有哪些具体的指标?
女生: 就是这个项目的目标其实就是要确保系统的高可用性嘛,那他们就是定义了一个。四个九的可用性,也就是整个双十一大促期间。系统的不可用时间,不能超过,四分二十三秒。
男生: 哇这听起来,真的是一个非常严苛的标准啊!
女生: 对而且他还有这个性能上面的要求就是要达到每秒一百万的交易量。比去年提升了百分之二十五,然后还有就是任何的故障恢复时间要在五分钟之内。就真的是对用户体验的一个极致的追求。
男生: 为了达成这么严苛的目标啊这个淘宝双十一大促稳定性保障这个项目。都采取了哪些具体的保障手段呢?
女生: 他们就是从容量规划,嗯哼就这个系统到底要支持多少用户多少订单。然后还有就是这个限流降级。就是保证核心的功能优先,嗯还有就是多活架构。就是多个数据中心,嗯互相之间可以无缝的接管。还有就是全链路压测就是模拟各种极端的场景。还有就是这个监控告警,就是全天二十四小时的。对系统进行监控一旦有问题马上通知。
男生: 听起来挺挺全面的但是我想知道就是这个项目。它的核心重点到底在哪里?它的难点到底在哪里?
女生: 就是重点嘛我觉得就是要扛住比平时大几十倍的流量嗯不让系统挂掉。然后难点我觉得就是在高并发的情况下要保证数据的一致性。就是你的订单数据和你的库存数据要一致。这个是非常难的。
男生: 那淘宝在这个双十一大促稳定性保障这个项目当中。具体的工作安排是怎么展开的?
女生: 他们就是成立了专项的小组,然后用那个 RACI 矩阵。去定义清楚了每一个角色的,职责嗯在时间上面他们就是划分了几个阶段。从需求分析,嗯到开发,嗯到测试,嗯到演练,嗯每个阶段都是非常清晰的。他们的需求分析是从六月份就开始了。开发是七到九月份,十月份就是全面的测试,十一月份初就是最后的这个应急预案的演练。
男生: 听起来时间规划的真的是非常的严谨啊!
女生: 对是的然后在分工上面就是。产品,团队负责梳理需求,技术团队负责架构和编码。运维团队负责,基础设施的稳定,测试团队就是做全方位的测试。他们还做了预算的,这个协调。还请了外部的专家进来做一些支持,就真的是非常细致,滴水不漏。
男生: 淘宝在面对双十一大促这么多复杂的场景的时候。他是怎么去做这个突发问题的应对的呢?
女生: 比如说他的流量,在零点抢购的时候会激增到平时的一百倍。那他这个时候就会有一些动态的扩容,嗯就自动的去增加一些服务器的资源。然后保证他的服务是正常的。再有就是比如说他的一些第三方的服务,出现了故障。比如说物流的接口,挂了那他这个时候会有一个熔断机制。就是在五秒之内就会切换到备用的服务。同时也会去扩容他的资源。再有就是比如说他的某一个数据中心,出现了断电这种非常极端的情况。那他整个的业务会在十分钟之内完全切换到其他的数据中心。就真的是非常快,就是把用户的体验和影响降到最低。
男生: 淘宝为了能够应对双十一大促这么多,复杂的突发问题。他到底做了哪些具体的准备呢?
女生: 他们就是定期的会做一些应急预案的演练。然后确保每一个人都知道,一旦发生了这样的事情他要干什么对。还有就是建立了这种快速的响应机制就是。任何的问题都能够在五分钟之内,有人开始着手去解决。还有就是准备了非常充足的这种备用的资源,就是服务器啊网络带宽啊等等。
男生: 淘宝到底是凭什么能够这么自信的去保障双十一大促能够稳定的进行呢?
女生: 就是他们通过这种非常明确的目标,然后层层分解。有非常多的保障的手段。有非常详细的这种工作计划。还有就是对于各种问题的应对的预案。他们不光是说现在做到了这个系统的稳定,他们未来还会不断的去优化这个架构。去提升他的这种高可用性。给用户带来更好的体验。
男生: 好吧,然后今天我们其实聊了很多关于淘宝双十一大促稳定性保障背后的这些事情。从目标到手段到,具体的应对,其实我们可以看到这背后是非常多的心血。是非常多的精细化的工作。
女生: 对以上就是这期播客的全部内容啦然后感谢大家的收听咱们下期再见拜拜!
