先智数据董唯元:智能预测化解超融合规模与可靠性之间的矛盾

2019年软件定义存储峰会上,先智数据中国区总经理董唯元作为存储业内老兵从基础架构的演进讲起,谈到超融合的创新以及优势,超融合并不是百利而无一害,超融合的扩展性和规模性带来了运维上的困难,自动化,智能化的运维面对这一场景有很大的施展空间,特别是在超融合规模和可靠性的问题方面,他介绍了人工智能故障预测的方案。
 
内容掺杂着这位存储老兵的很多思考,干货十足,以下内容根据现场速记整理,为便于阅读有所删减,未经演讲人确认,仅供参考学习:
 
董唯元是存储业内资深专家,而现在在先智数据现在做的事情有点脱离存储,但在此之前也曾做过自有品牌的超融合,对超融合有一些感情,而今做的事情更多面向智能运维。
 
早在14年的时候开始做超融合,对超融合了解的比较多,大会上他分享了几个关于架构演进的感受和看法。
 
从1999年的时候开始做存储和基础架构相关的事情,那个年代还没有分布式,那时候的存储主要看性能、可靠性,那个年代讨论基础架构解决方案的人经常是用户CIO,由于他还做过一些整体咨询的工作,所以经常跟CIO聊,而现在,他发现很少有CIO聊基础架构了。他觉得基础架构在用户眼里的地位有一点边缘化。
他还发现,有了云计算之后,CIO要操心的事突然变得更多了。如图上所示,以前的IT相对来说比较规范,各行业的IT模式都差不多。但现在的IT要关注的东西特别多,经过一段时间的探讨,业界出现了所谓的双模概念,传统IT架构不能完全抛弃,同时大家需要互联网化和业务敏捷IT,两者需要融合。
 
云计算已经出现了10多年,而CIO都在想怎么选才能适合自己的业务,CIO的关注点原来就存在,只是在新的时代下又以新的面貌出现了,解决方式就是业内比较认可的中台策略,或者叫平台化,也有的叫行业云,命名虽无法统一,但其目标就是融合双模IT,传统IT靠僵化固话的策略做可靠性,但丧失了敏捷,如果传统IT追求敏捷对于大部分的传统业务风险又太大,这个问题需要CIO来决策取舍。
 
可靠性和敏捷性的取舍,董唯元认为可以参考汽车行业,汽车的可靠性也非常重要,同时也需要一定的敏捷能力,需要一些个性化能力,汽车行业的做法是让工厂把标准件做得非常可靠,符合各种规范流程,同时也能快速完成拼装,卖给用户。
 
对应到IT里就是中台,后端各种资源和服务都遵守一定的规范性和可靠性,这就相当于汽车行业的标准可靠零件,然后需要一种面向业务的服务编排能力,这就是汽车组装环节,需要的是打通若干环节的能力,最后创建一个业务应用,这是一种模式。
 
这个模式比较常见,理论上是成立的,作为咨询行业的专家,董唯元发现有时候这些理论有时候是站着说话不腰疼,方法论在这里,但如果要说落地,各种实际问题就出现了。最大的冲突还来自于敏捷和可靠,这两个要求在日常习惯上就不一样,相当于强行把一群年轻精力旺盛的年轻人和一群老态龙钟的老人关在一起,但想让这两拨人互动那就有问题了。
 
传统企业企业要互联网化,要敏捷,相当于原来坐火车的人现在自己开汽车了,自己把握方向盘自己决定方向,可能性多了N倍,问题了多了N倍。不是所有业务都需要互联网化和敏捷能力的。当可靠和敏捷放在一起做IT运维的时候,流程设计、管理模式其实都是问题,有时候,技术只是一小部分问题,重要的还有如何重塑管理流程等等。
现在的IT架构中采用云架构不一定省钱,而且反而更加费钱,其中包括运维的原因,互联网化之后运维不到位,底层没有打通,管理不到位、资源浪费都是问题,很多人会发现,上了云之后运维人员的数量要翻3—5倍。如果原来有2000万预算基于传统IT架构搭建,那么可能大概需要两个运维人员,现在如果有2000万预算的话,可以买两卡车的超融合,运维机柜处理故障等这类运维人员的数量也会有所增长。这是云化之后的最直接感受。公有云也是一样,资源是否浪费,利用率如何最后都是成本的问题。
 
当系统越来越复杂,业务盘根错节,用户也很难搞清楚到底该怎么做了。超融合可以说是IT领域的一大创新,而现在,超融合本身不再是基础设施领域的热点,如今的热点是DevOps,微服务相关内容,要解决的问题其重点在于运维管理上,结合一些咨询机构的研究董唯元认为,未来基础架构领域的核心是用AI做创新,AI可以做预测性运维,可以做服务编排,这也是我所在的公司先智数据做的事情。
先智数据用人工智能在运维管理方面有很多细节的东西,可以让系统管理员有一个穿越的能力。现有系统非常复杂,相互之间又有调用,能找到过去某个时间点发生的事情的细节,原景重现可以帮助定位问题。
 
人工智能另一个能力是预测未来,如果未来有一些值得注意的事情的话,用户可以看到未来时间点上当前系统的状态,比如会发现一些硬盘故障,未来系统的性能状态等等。人力也能做传统运维监控,但AI能在各种数据指标之间建立一些关系,AI能对所有指标进行参考,而人智能凭借经验来判断。
 
先智数据的方案可以高精准度的预测磁盘的故障,上图列出了未来一段时间可能会出现故障的盘。除了硬盘,可以预测的还有业务负载,物理机的占用,任何一个构想在当前系统里都可以做预测。
预测能力可以做很多事情,比如可以做容器的调度,大量容器的快速启停,在私有云、公有云以及各种资源范围做调度控制,还可针对容器的异常状态进行一些调整,比如自动回收一些卡死的容器等等,系统在做一些耗费资源的故障修复操作时,会影响到性能,先智数据的智能系统还能自动错开业务高峰期进行这类操作。
 
在可靠性方面,几十个节点的超融合和分布式存储无需额外关注太多,但规划一千节点左右的数据中心时就需要多加考虑了,上规模后一些保护机制可能会出问题,比如,一旦一个集群规模超过了50个节点,使用体验会非常差,一般都会限制到30个节点,有的几百节点的超融合容错率其实很小。
 
上图统计了节点数和副本数对于SDS可靠性的影响,纵轴说的是容错域,越高越好,三副本比二副本可靠性要强,横轴说的是节点数,节点少的比节点多的可靠性要强,副本一定的情况下,可靠性的X个9是一条变化的曲线,从图中可见,节点越多容错率,容错能力越低。
 
故障预测不能改变故障出现的次数,但是故障本身是可以预测的,预测到之后就可以提前做准备来减少故障影响,先智数据的故障准确率可以到90%,有了故障预测能力之后,可靠性有所很大提升,图中开始出现7个9了。
 
以上就是先智数据董唯元介绍的主要内容。