近年来,随着直播等大流量互联网业务的兴起,CDN业务随之呈现飞速的发展。传统CDN厂商与各大云服务提供商抢占市场,纷纷降价的同时也大规模扩张着CDN节点。
快速的扩张容易忽视一个重要的问题:业务规模的快速发展,若没有一套完备的支撑系统,会引起诸多质量问题。轻则引起业务时延变高、成功率下降;重则有可能导致灾难性的长时间、大面积的系统瘫痪。
回顾2016年,多家CDN厂商频频被爆出大大小小的事故。就连国内一些云计算巨头,近来也由于服务的不稳定,引发了多起大规模的故障,导致客户业务长时间不可用,用户利益受到直接损害。反观腾讯云CDN,十年的运营过程中,其服务稳定性方面的表现,在业内有口皆碑。
本文将从影响CDN稳定性的几个因素出发,探究腾讯云CDN稳定背后的秘密。 一、网络质量
网络质量是影响CDN稳定性的首要因素,运营商的网络环境会发生间歇性、地域性的抖动甚至服务中断,在用户看来症状往往是网络速度变慢、访问成功率下降,严重的会引起大规模的业务投诉。
为了避免运营商网络质量对CDN的影响,需要从两个层面来规避:
快速精准的感知网络质量的变化,在故障出现的初期将业务调离故障区域。做为CDN平台,对质量的监控是标准动作,但如何快速精准却是最大的挑战。
腾讯云CDN,拥有全国最准确的IP库,同时背靠腾讯的大数据平台,可以从海量的业务上报信息中快速感知网络波动。腾讯网络路由质量评测系统Q调,以QQ和QQ空间秒级上报的海量数据为基准,可快速分析出地区运营商级的时延迟、成功率波动,并智能化的结合历史、外围信息分析,给出链路质量的定性评估。给GSLB调度系统更加快速、准确、合理的调度提供依据。
对于深度合作的客户业务,腾讯云CDN会将其上报的质量信息纳入决策系统,更加真实的反应业务实时的网络质量情况。
快速感知到网络质量问题把业务调走只是第一步。可以调度到合理的节点,业务质量不受影响,才是最终的目的,这个时候资源覆盖的广度和合理性显得更加重要。
腾讯云CDN在全国部署了500+加速节点,这些节点合理地分布在了各省市自治区,同时涵盖了移动、联通、电信三大运营商以及数十家中小型运营商,对于重点的省份、地区、运营商实现多节点覆盖。当部分节点服务不佳,GSLB有很多选择将用户调度到相同服务质量的节点,并且有足够的冗余承载这些服务,同时尽量避免跨区域调度,保证低时延。
腾讯云全国CDN节点分布图
SOC是腾讯云CDN近期大力建设的资源之一,在全国多个重点区域部署超大存储量、带宽资源丰富、网络质量高的超级节点。这样在边缘节点出现大面积网络故障时,就可以无缝承接附近大面积边缘节点的负载。此外,通过全网监控、智能调度、多节点覆盖、SOC容灾等方案,腾讯云CDN能够轻松应对运营商日常的各种网络问题。
腾讯云SOC节点示意图
二、节点异常
第二个可能影响到CDN质量的问题是节点异常。因此应对个别节点出现磁盘、网卡等硬件故障,以及系统、程序等软件故障,甚至是业务突增带来的系统高负载等等各种异常,则必须考虑保持CDN系统稳定性。
腾讯云CDN在全国有500多个加速节点,涉及到万台设备,在节点故障这个可控性更高的问题上,有着充分的话语权。同时腾讯业务多年海量服务的运营经验,为腾讯云CDN保障客户业务运维正常,提供了技术、服务支撑:
在节点软硬件故障上,通过将秒级监控与切换、版本灰度发布、柔性可用、过载保护等海量技术融合到CDN具体的业务场景中,实现了节点、设备的有效管理与容灾。
在业务突增上,快速感知节点流量的变化并进行调度是基本的手段,在此基础上,腾讯云CDN同时也根据具体的业务特点,作了不少针对性的优化:以当下很火的直播为例,不同于其他业务类型,直播业务都会在短时间内突发大量的用户请求。为了能快速、准确地预估节点的请求量与负载情况,腾讯云CDN采用SNMP协议采集交换机流量,代替以往应用层上报流量的方式,将数据采集延迟由分钟级降低到秒级,同时将机器学习算法应用于节点负载曲线的预测中。对于可能超负载的节点,能够做到实时预测、提前感知、事前预防。
腾讯云视频直播预测调度效果
三、系统安全
系统安全是任何一个CDN服务商都无法回避的问题。不论是各种形式的DNS攻击,还是DDos攻击、CC攻击,任何一种攻击,都足以让CDN大面积甚至是全部瘫痪。
在这一点上,腾讯云CDN有一整台完善的立体防护体系。DDos防护,本质上是拼的是资源消耗。腾讯云CDN独有的带宽资源、机器资源,能够为用户提供超大带宽的DDos防护。从入口的高防DNS,到第一跳的高防CDN节点,再到源站的高防专区,保证全链路的防护万无一失。
另一方面,通过模式识别、身份识别等多种手段,腾讯云CDN能够精确识别恶意访问者,有效防止CC攻击。
腾讯云DDoS防护方案全景
四、业务级故障
来自业务方自身的问题,往往是最棘手的。由于每个业务有不尽相同的特性,而且各个业务自身在资源、能力方面都各有差异,因此常规的方法,在这种场景下就显得有些捉襟见肘。
腾讯云CDN另辟蹊径,一方面,为业务建立了通用的评估体系——四维质量体系,从调度、传输、存储、回源等角度,考量业务各方面的质量以及合理性,从而评估出各个维度的优化空间。另一方面,从主动服务的角度入手,CDN系统尽量减少对业务的依赖,比如设计多级回源系统,将边缘节点到客户源站的回源流量降到最低等。此外,针对重点客户,腾讯云CDN还专门为客户量身打造了一套专属的业务评估模型,根据客户具体的业务形态,一对一重点优化,在保证系统稳定运行的前提下,持续为客户优化各项参数。
五、服务体系
作为云计算战场的必争之地,CDN服务的稳定性,在很大程度上体现了一家云服务商的实力,同时也在很大程度上反映了一个云服务商的未来能走站多高、走多远。腾讯云CDN,配合数百位7*24小时专业服务的运维、售后团队,在系统稳定上的杰出表现,经受了包括坚果手机发布会“黑色半小时” 、快手GIF、芒果TV、CNTV等多家客户的多次考验,确立了行业领先地位。
基于腾讯在交互领域多年的运维经验,腾讯云CDN在未来的发展中,凭借其稳定、安全的技术优势加持,将会为云计算行业赋予更大的动能。