作者:郭涛
今年,美国知名项目管理研究杂志PM Network将“天猫双11”与互联网、阿波罗登月、人类基因组计划等并列,共称为世界上TOP50最有影响力的项目。“双11”不仅改变了人们购物的方式,而且打通了商业与娱乐。
因为可以带来数倍于平常的流量和销售额,所以每年的“双11”到来时,各路零售商们都会“如临大敌”,严阵以待。在极限高并发访问的情况下,在线交易系统、支付系统等能否经受得住考验呢?
每日优鲜运维总监周锋
最初几年,因为对“剁手党们”在“双11”期间的购买程度估计不足,曾经出现过个别商家的系统不堪重负而宕机的情况。近几年 “双11”期间这种系统宕机的新闻越来越少,因为各商家在“双11”到来前已经做好了充足的准备。被誉为“最懂吃货心的电商”——每日优鲜,在今年的“双11”到来前差不多两个月就开始了各项准备工作,所以真正在“双11”期间,其业务系统没有出现任何问题,安然度过。在UCloud于11月23日举行的UClub新零售技术沙龙上,每日优鲜运维总监周锋用8个字概括了他今年的“双11”体验:无惊无险,风平浪静。
外松内紧,不打无准备之仗
真的是无惊无险,风平浪静吗?其实,正是因为每日优鲜公司高层的充分重视,运维、研发、业务等各个部门协调一致,以及云服务商UCloud的支持,每日优鲜在面对“双11”这场大考时才会气定神闲。
或许,用“外松内紧”四个字来形容每日优鲜备战“双11”会更恰当。俗话说,兵马未动,粮草先行,为了从容应对“双11”,资源准备必须先行。最近两年,每日优鲜都是按照周六日交易峰值的4倍为“双11”设定余量。为了消除不同区域在不同时间段的交易峰值,运维团队还要时刻准备着,根据实时交易情况削峰填谷。
从9月20到10月31日,每日优鲜针对“双11”期间可能出现的各种情况和需求,从业务运营、架构运营、系统运营等多个维度进行了全面梳理,并针对可能会出现瓶颈的地方进行了详细了解,准备预案,尤其是进行了一系列高强度、全方位的压力测试。据周锋介绍,从9月20日起,每隔三天就会进行一次大的压测,而且每天都会有小压测,包括全链路的压测、写压测,以及故障演练、第三方服务出现问题后的应对等。因为做好了全面的准备工作,所以今年“双11”到来时,每日优鲜上上下下心里非常有底。
“双11”活动期间,每日优鲜特意在北京总部大楼的11层设立了作战室,从总指挥到研发团队的架构师、所有运维人员,以及运营、技术和产品的对接人,从早上8点就全部到岗,一份分工明细的保障时间表,不仅包括所有一线参战人员和备战人员,而且按照每个小时分批次排定工作内容,在办公室的、在路上的、在各个分支构的人员,都遵照既定的节奏,有条不紊地处理自己手中的工作。
因为每日优鲜的IT系统100%托管在公有云平台上,所以每日优鲜的“双11”之战,也有云服务商UCloud紧密配合与协作。
除了充足资源的准备,UCloud协助将每日优鲜云资源打散,避免业务过于集中承载而出现问题;同时将一些历史的监控数据、风险分析和评估数据给到每日优鲜作为参考,双方共同研判在“双11”期间可能会出现哪些意外状况和风险,提前进行优化、迁移、加固等工作,以降低风险。此外UCloud还派专人提供驻场服务,确保在问题发生时能够第一时间响应和解决。
“在今年之前,每次‘双11’来临时,我们都会比较紧张,整个过程中会消耗大量人力物力资源,感觉身心比较疲惫。”周锋坦言,“但是今年有很大不同,‘双11’技术保障再次升级,公司内部各业务部门之间充分沟通和配合,提前做好准备,为所有工作设定优先级,并确定每项工作的深度,归纳出方法论。正因为如此,今年的‘双11’保障工作才会游刃有余。”
背后的技术准备
每年的“5·17”“6·18”“双11”“双12”,再加上商家的店庆,还有各种各样的节假日,现在的大促似乎变成了常态。这些促销日对“剁手党”来说是一场场的狂欢,而对于商家的IT运维团队来说则是一场又一场不能有丝毫松懈的战斗,会耗费大量精力和体力。
在大促前的准备阶段,IT运维团队要根据业务部门提出的要求,比如要做多少波秒杀、发多少张券等,研究如何分配现有资源,是否需要扩容并且扩多少,最大流量洪峰可能出现在何时,如何针对复杂架构实现统一监控,以及如何快速定位问题并顺利解决。
商家平时的销售和一般的促销活动,用户访问量通常是线性的或可以预测的。而像“双11”这样的大促,通常流量是很难提前预估的。另外,为了达到预定的业绩目标,业务部门可能会在某一关键时间点上临时抛出一个新的营销手段,比如在晚上11点发出一波红包,这时可有会引发瞬间流量激增。这些临时出现的情况,随意性大,很可能导致技术瓶颈出现,所以作为IT运维人员,必须和业务部门保持密沟通,确保在几分钟内解决问题。
“瓶颈总是存在的, 这就需要不同的部门之间相互磨合,及时沟通,才能在瓶颈出现前,消峰填谷,及时化解。”周锋表示。
在“双11”之前,UCloud对每日优鲜的运营活动计划有了充分了解,提前优化IT架构的承载能力,这是应对瞬时高并发流量的前提条件。从9月20日开始,每日优鲜的运维部门召集运营部门一起梳理促销活动指标,预估发券、流量等数据。每日优鲜的运维团队负责把这些“业务语言”翻译成“技术语言”,如哪些代码、模块、服务、系统需要特别关注或者优化,然后再由云服务商UCloud将其翻译成“云端资源语言”,比如需要扩容多少云主机、多大带宽、负载均衡,以及交付节奏等,从而保证在“双11”期间,一切交易尽在掌握。
每日优鲜发布的今年“双11”的战报显示:销售额为去年同期的2.7倍,最快的一笔订单配送到用户仅用时5分51秒,刷新了纪录,而运维部门的零故障完美地支撑了业务的“巅峰时刻”。
当“双11”成了“新常态”
无论是从知名度、影响力,还是带来的流量、销售额来看,其他的促销活动还不可能与“双11”相提并论。所以,每年的“双11”,每日优鲜都会提前做好一切准备措施,但紧张的运维工作也会让周锋和他的团队一度“忙到跳脚“。
从长远来看,各种促销会变成“新常态”,而每日优鲜通过像“双11”这样的大促,可以不断积累经验,并形成一套涵盖技术、流程和管理的方法论,使之标准化、自动化,并可在每个促销活动时复制,尽量采用标准化、自动化的流程、配置,减少人为参与的环节,这样不仅可以提高效率,而且减轻了运维等团队的工作负担。这对周锋和他的团队来说又是一个新课题。