阿里自研实时计算平台Galaxy支撑双十一 每秒运算量将超千万条

阿里巴巴11月7日宣布,其大数据团队自研的实时数据计算平台Galaxy ,目前每秒可运算数据超过500万条,预计双十一当天每秒运算量将超过1000万条,日处理消息数将超过1万亿条。针对每一笔交易数据,系统将实时反复检测70余次以保证数据质量。
 
一分钟成交破亿,一千多万人涌入天猫。这是2013双十一购物狂欢节第一分钟的战况。这些数据在杭州淘宝城内的数据大屏实时播报。大屏上跳动的每个数字,来自于阿里内部60多个系统间的紧密合作:当你在以最快速度秒杀到双十一热卖商品的同时,这些系统已经完成了无数轮的数据采集、传输、加工、计算以及反馈到页面的工作。这正是阿里未曾公开的技术–如何在保障数据质量的前提下实现实时计算?
 
Galaxy是阿里巴巴自研的通用增量计算平台,能提供从分钟级别到秒级别、甚至毫秒级别延迟的实时数据计算能力。Galaxy解决了计算通用性、开发成本、数据质量等诸多难题,并提供可扩展、规模化的集群服务能力。
 
目前,Galaxy每秒可计算数据已达500万条,每日处理的记录数超过2500亿,日处理数据量近2PB。想象一下:当你还在努力算出1024×1024等于多少时,这一秒钟内Galaxy已经拿到数据、计算结束、交出结果这一整套流程500万遍了。今年双十一,用户浏览、成交、手机APP等产生的数据量都将大规模增长。当天Galaxy的运算量预计每秒将超过1000万,日处理消息数将超过1万亿条。
 
阿里巴巴数据质量团队介绍:“Galaxy不光要算得快,还得保证不能算错。”除了Galaxy之外,阿里研发了一套可以实时检测线上数据的系统,能够在1秒钟以内完成从数据产生到校验的过程,每笔交易可以实时建议70多次,以保障双十一的数据不会算错。
 
比如,一个美国用户在双十一活动下单,刚付完款,可能由于国际间网络突然闪断,导致"已付款"状态数据没有传输回来。这时,呈现给买家的可能就是"交易失败"的状态。但通过数据实时检测系统,能在这个问题被消费者发现之前就开始报警进行处理。也许,还没消费者回过神来,这个问题就已经被纠正,丝毫感受不到"交易失败"曾经出现过。
 
此外,Galaxy还设计了数据"防漏"措施,哪怕服务器突然宕机,也能保障数据不丢失,快速恢复后继续工作。想象一下:如果在你跟朋友约好晚上看电影的时候,你突然发了一场高烧昏厥过去,正常情况下,要去医院才能治好,并且得休息好几天。Galaxy不仅能自我修复,而且还能将时光倒回到那个晚上,你和朋友继续去看电影。
 
目前,Galaxy已逐步支撑阿里集团绝大部分的实时业务和应用,包括淘宝、天猫、阿里云、菜鸟、聚划算、无线、搜索、广告、数据魔方等业务提供实时计算服务。