专访徐勇州:腾讯云全球化布局势如破竹,构建全球24小时无差别服务

3月26日,腾讯云香港第二个数据中心正式对外开服,率先在香港实现了金融级双可用区部署。

3月27日,腾讯云美国东部弗吉尼亚和西部硅谷数据中心同时开服,实现全美东西海岸两地三中心布局。

3月28日,腾讯云印度数据中心正式开服。这是腾讯云在南亚区域布局的首个大规模数据中心。

4月23日,腾讯云泰国数据中心正式对外开服务,至此,腾讯云已经成为亚太布局最全面的云服务商。

6月14日,腾讯云莫斯科数据中心正式开服。成为首家落地俄罗斯的国际品牌云厂商,率先为全球客户提供俄罗斯本地合规云服务。

今年以来,腾讯云全球化布局势如破竹。

毫不夸张的说,腾讯云在不知不觉间,正在快速构建全球24小时的“无差别”覆盖。腾讯云的海外布局的速度,快的令人咋舌。

本期大咖访谈录,我们带你近距离接触腾讯云运维中心总负责人徐勇州。


徐勇州:

2005年10月进入腾讯,负责QQ的运维能力建设,经历了QQ从1000万到2亿最高同时在线的技术架构演进。凭借自身的努力,一步步成长为腾讯云运维中心的总负责人。

最爱的运动是马拉松,希望未来可以跑一遍腾讯云数据中心所在国家的马拉松赛事。

“以前喜欢跑马拉松,自从加入腾讯云后,换到了云计算的马拉松赛道。不过,自己还是有个小小的愿望,待腾讯云完成全球化布局后,可以跑一遍腾讯云数据中心所在国家的马拉松赛事。”面对记者的采访,徐勇州笑着说。

长距离的马拉松赛事,需要参赛者实力与耐力兼备。今年是徐勇州加入腾讯的第13个年头。从2005年10月进入腾讯,作为QQ后台的第一位专职业务运维,一直负责QQ的运维能力建设,经历了QQ从1000万到2亿最高同时在线的技术架构演进。凭借自身的努力,如今,他已经成功从一名业务运维,一步步成长为腾讯云运维中心的总负责人。

在腾讯云内部,我们习惯称呼他为阿兰哥,因为他的英文名为alan

在他看来,数据中心作为云服务的基石,如果任何一个大规模的数据中心出现了故障,都将会对品牌和客户业务造成无法挽回的损失。同时,数据中心作为云服务产品在计算、网络、存储等方面的底层承载,其在日常工作中的安全性以及可靠性,将会直接影响到云服务的用户体验。所以,徐勇州不止一次的强调,数据中心的运营维护需要最专业的团队、最领先的技术。

用近乎“变态”的标准,只为打造最高品质的数据中心

腾讯云目前在用的数据中心都是T3+及T4标准,据徐勇州介绍,腾讯云目前在数据中心的选址、建设和运营三方面都积累了丰富的经验并已形成了一套自己的标准;在这异常苛刻、近乎“变态”的规范和标准背后,是腾讯云打造高品质数据中心的坚定决心。

选址:五十多项地址勘察检查项,在每一个数据中心园区勘察的时候,团队会逐一进行确认,强制条件有一票否决权,以确保腾讯云数据中心有一个优良的地理位置、建筑、市政以及网络条件。举例来说,在园区选址的时候,首先会进行周边危险源的排查工作,以确保数据中心有一个安全的周边环境。除了硬能力外,在海外数据中心拓展的过程中,网络能力是重点考虑的内容,优先选择具备丰富网络资源的互联网交换中心,并通过与世界一流的互联网交换中心Equinix、Interxion等合作伙伴一同打造云交换平台,快速打通云间互联,为客户提供最优的公网接入和专线互联能力。

建设:建设标准方面,腾讯云有自己的设备品牌短名单列表,以确保机电设备稳定可靠。小到PDU,大到柴发冷机都会严格按短名单筛选的厂家品牌。

运营:专业的IDC运营团队,负责风火水基础设施的日常运维,有完善的应急预案和例行演习机制;除此之外,腾讯云具备最精锐的IDC现场IT运维团队,通过腾讯IT运维工程师认证体系,保证每一个运维团队成员都具备网络、服务器、资产管理以及现场协作全方位的综合能力,海外节点更专配“双语”甚至“三语”的专业IT工程师,高效响应客户需求。7*24全年无休的经验团队服务承诺,是腾讯云的一大优势。 

担心业务大规模故障、用户数据被盗,不存在的!

 云计算对基础设施的要求,与之前的腾讯海量业务之间,还是有很大的区别。具体来看,在经历过2011年的后台架构重构之后,如今的QQ不仅可以支持到亿级用户同时在线之外,后台服务也得到了质的提升。

据徐勇州介绍,当时的运营团队考虑到了几乎每种场景下的故障处置预案,正是因为业务侧的容灾能力建设,直到目前为止,QQ从未发生过大面积的故障。

来到腾讯云这边之后,徐勇州认为最大的挑战其实是来自于业务软件架构层面的容灾建设,因为很多客户其实都在快速发展阶段,在业务软件架构层面的容灾建设投入的比较少,这就对底层基础设施提出了非常高的要求。

容灾能力:腾讯云充分考虑数据中心以及网络的容灾能力,在电力、网络、水路方面均满足双路由要求。以电力系统为例,腾讯云只接受3个标准,金融级别的数据中心都是2N双UPS架构,非金融在国内广泛使用高压直流及市电直供技术,海外采用2N双UPS或Block N+1架构,以最大化保证供电系统的可靠性。为满足客户同城双园区的部署需求,国内所有的区域都已经做到2个以上的的可用区。

安全性:腾讯云借鉴和参考国内外政府和监管机构的规范和标准,制定了包括:周边的入口管理、监控管理、出入管理、交接区管理、安保巡检管理、钥匙门禁管理、受限区域管理以及物理安全事件管理九大园区管理范畴制度。另外,在数据安全方面,在存储介质粉碎的颗粒度上,腾讯云按海外金融监管的HDD硬盘为30mm*60mm,SSD硬盘为9mm*18MM”严格要求,通过SN号的核实,确保数据销毁准确无误,整个销毁全程视频跟踪录像。

稳定性:电力来自2个不同变电站,2路高压市电互为热备、光缆从完全独立的2条管道引入数据中心、水路来自完全独立的2个水厂或环网,电水网全为真双路;

腾讯云的国际化进程还会加快,打造全球24小时“无差别”服务

2017年底,腾讯云的基础设施已经覆盖到全球21个地区,并在全球运营36个可用区。短短几个月时间,发生了我们文章开头里面的一系列“大事件”,如今,腾讯云已经在全球范围内的25个地理区域里开设了45个可用区。

最近,腾讯云相继开放美国西部、德国、韩国、印度、美国东部、泰国、俄罗斯,并在美国西部和中国香港构建了region内双可用区能力,新拓7个区域,9个可用区,开区拓展速度领先同行。

 徐勇州认为,腾讯云在国际化进程中需要积极挖掘客户需求,同时不断加大在基础设施上的投入,同时数据中心和基础设施必须先行,这里必须提前进行投资建设,力度要大,否则很难满足旺盛的客户需求。今年初腾讯云对全球数据中心规划进行了全面刷新,加大在基础设施方面的投入,尤其在海外,建设周期通常是国内的2倍,腾讯云按初期规划的3倍进行前期建设投入。

接下来,腾讯云的国际化进程还将不断加快!

不畏艰难,使命必达,没有什么趟不过的坎

作为腾讯云运维中心的总负责人,谈及从事这项工作有哪些心得体会时,徐勇州认为,首先数据中心是云服务的基石,这里不容许犯错;其次,规划能力是极大的考验,数据中心建设周期长,需要看到未来1-3年内的需求,提前布局;最后,这项工作挑战大,有趣,能和一个高速成长型业务共同成长是非常幸运的事情。

如今看来势如破竹的海外布局,一开始其实也不太顺利,比如2016年底,腾讯云为了快速满足客户全球化部署需求,结合腾讯云自研的虚拟化平台技术,开放了11个海外合作节点,引来不少质疑。也就是在那个时候,团队明确了全球化部署的目标,腾讯云内部定了1.5年的期限,要快速补齐这里的能力,通过构建规模化集群,具备腾讯云全产品线部署的能力,更好的满足客户全球化部署需求。

                                             背后强大的团队支持

徐勇州感慨道,在腾讯云全球数据中心建设过程中,背后有太多的无名英雄——

为了按预定计划开区,团队克服各种困难使命必达。数据中心的商务同学为了按时完成考察,签证的时间都要精打细算;

在一个国家进行数据中心建设过程中,因税号和银行帐号问题可能影响整体的交付,团队暴露风险后,没过几天,由财税法组成的专项项目很快就成立了,专项支持腾讯云的全球化财税法合规工作。

每到交付的最后几周关键阶段,尤其是前期出现了不可控的延期后,“加班”是家常便饭。

经常看到项目PM发起的节假日加班申请邮件。

现在回头看来,去年初吹下的牛现在都实现了,这是后端团队共同努力的结果。更重要的是团队的辛苦换来的是客户的认可,越来越多的客户选择使用腾讯云进行全球化拓展。