6月13日,第四期听云应用性能管理大讲堂在IC咖啡精彩上演,不小的咖啡厅里人头涌动,100多位来自不同行业的小伙伴前来参加,同时还有数百位同学通过网络观看了讲堂全过程,现场火爆的情景一直持续到讲堂结束。
在我们平时的运维过程中,虽然会对常见的故障备有应急预案,也极有可能会在未知的情况下发生系统包括数据库都需要重新部署的极端情况,面对4G时代的流媒体,网络社交,网页浏览等热点业务的急速发展,业务流程越来越复杂,对IT系统的依赖性也越来越强,IT运维质量的好坏对业务的影响有至关重要的作用。本次应用性能管理大讲堂,来自爱投资、听云、西山居和京东的运维大牛们为到场观众带来一场生动的业务级运维公开课。
韩世琪:互联网金融业务运维的挑战与实践
“互联网+”的概念最近火热一时,而互联网金融更是处于浪潮之巅,本次沙龙首先登场的便是来自爱投资的技术副总裁韩世琪,他先给大家展示了互联网金融现实中的样子。
韩世琪说到,需求决定业务模式,而业务模式、业务规模决定技术架构和运维模式,互联网金融的特殊性决定了它需要业务的敏捷性与安全性完美融合。互联网金融的本质还是金融,传统的金融行业在适应性上多少会出现问题,而互联网金融的P2P、P2C模式帮助企业做到金融脱媒的过程,同时也满足了个人投资者的需求。爱投资的模式,用一句话来概括:“线上放贷,线下抵押”,业务模式从管钱、管人、管事三个方面入手。
紧接着韩世琪为我们介绍了爱投资的技术架构。爱投资技术团队差不多40人,所以适合中小规模团队、支持快速迭代、低成本、稳定可靠、开源社区健康的技术和架构是他们的首选,选择的原则就是尽量的简单,把问题集中解决掉,然后以迭代的方式来做更多的事情。架构采取公有云和私有云混合使用,同时有一些线下的离线处理和数据仓库。APM监视方面使用阿里云的云监控去监控一下硬件方面数据,运维方面则是使用听云,节省大量的人力成本。
最后韩世琪为我们分享了业务运维实践经验运维。他说互联网金融行业的运维需要满足三点,第一,要从运维的角度为每条产品线的全生命期供给运维资源,提供日志查询和结果分析的工具;第二,严格控制所有的权限、成本、性能、风险等方面;第三,制定一定的标准去衡量工作,保证对用户以及对业务部门的承诺。
运维者的逆袭让应用自我感知性能问题
随后来自听云技术副总裁廖雄杰为我们分享了一些应用性能自我感知的经验。廖雄杰说到,在我们的工作中,业务系统时不时出现了性能问题,而常规的手段是对系统的监控指标逐项排查,CPU、内存、IO、网络延时、数据库响应时间是否有异常,这些指标都是孤立的指标,与业务系统未必关联,在应对越来越复杂的技术架构时,传统的监控手段已经很难做到全方位覆盖,更别提与业务进行关联,我们急需一套系统,能自动监控系统的各项健康指标,一旦系统出现问题,迅速报警并给出健康建议。
接着廖雄杰为我们展示了应用性能自我感知的关键所在,APM(Application Performance Management)。APM所做的就是对软件应用的性能和可用性进行监控和管理,致力于发现和定位性能瓶颈和故障,以保证应用达到预期的服务水平及最终用户体验,并用几行代码来演示了APM想做的事情。廖雄杰还说到,要完成这样的事只需要在几个关键的位置嵌码即可。
最后廖雄杰用几个例子为我们演示了应用性能自我感知的具体实现。首先是一个慢应用过程追踪的例子,我们通过APM可以拿到所有慢应用过程的列表,并可以看到所有追踪的详细过程以及时间占比最高的方法,然后我们就能找到在哪一个文件,哪一行代码出现了问题,这仅仅是通过我们的运维手段就把直接出现问题的代码找出来,同理在SQL和API上我们也能实现同样的效果,这一切都归功于APM。
廖雄杰说道不仅是在Server端APM能发挥如此的功效,在移动互联网上APM也能大发神威。对移动互联网进行监控的时候,最头疼的一个问题是终端数量非常庞大,而且分散在世界各地,APM可以很简单的解决的这个问题,并能很清晰直观的监测到网络请求响应、交互性能、错误、崩溃等不同维度的信息,并定位至代码级,开发人员就能很好的解决问题,留住用户。
刘宇:运维自动化平台实践
经过现场观众与讲师Q&A互动和短暂的休歇以后,来自金山西山居的架构师刘宇开始了讲堂下半场的干货分享。他首先为大家介绍了业务运维的方向,业务运维向来是走在公司的第一线,它必须保障业务稳定性,同时对业务质量进行监控,处理业务投诉,定位和分析问题所在,提升客户体验以及业务性能优化,还有业务部署、新版本发布、服务端变更等等,然而业务线繁杂,无规范、无标准,故障难以快速定位,变更发布周期性长等问题一直困扰着每一个运维。
不懂业务运维的人,一定不是好研发,随后刘宇为大家描绘了运维自动化规划蓝图,建立一个运维自动化的平台,通过可视化让研发和更多一线的运维得到提升,让他们更轻松的应对工作。同时做好服务管理,把全线业务以及流程根据规范集成起来,同时监控配置和命令执行,然后用CMDB来监管所有的网络和服务器,从而得到一个完整的自动化运维平台。
最后刘宇分享了他的一些运维实践经验,第一,规范化,包括命名、代码、研发、测试等多方面的规范;第二,CMDB系统研发,包含数据存储、开放API两大功能,保持数据一致性和业务之间关联关系;第三,监控系统上线,先快速上线Zabbix并逐步完善业务级监控;第四,综合所有功能,让运维自动化平台上线。最后刘宇还谈到业务运维如何发展,需要具有对系统的全局把握能力,做到随叫随到,解决任何问题并记录未自动化事宜提出改进。
李志明:京东百亿级业务应用运维的进化与发展
最后一位登场的是京东应用运维部经理李志明,恰逢618购物节的到来,京东在如此巨大的用户规模情况下,业务运维是怎么进行的引起人们好奇。李志明说到,过去京东的运维基本都是靠人来驱动的,无论是编译、打包还是上线都是手工完成,审批过程也极为漫长,随着业务不断壮大,最后他们决定建立系统和平台,将人的常规操作系统化,将人的角色由操作改为决策,建立了四大系统:编译系统、部署系统、日志系统、监控系统。
利用这些系统将整个业务平台化、自动化,去掉最底层人的操作,降低人的作用,通过审计让运维做到透明化,做好冗余,保证一切实例的故障、服务器的故障、交换机的故障、机房故障、地震等不可抗拒因素等都有备用,同时将中间件云化。从业务层面上,运维需要了解业务逻辑、部署结构,还要准备应急响应方案、灾难演练以及促销时的应对方案。
最后李志明对业务运维的未来谈了一下自己的看法,他希望所有的研发人员、运维人员的工作最后都在一个生产环境运维平台上进行,在保证自动化的同时做好标准化,最终解放研发,提高业务连续性。
至此,第四期听云应用性能管理大讲堂落下帷幕,散场后小伙伴们仍旧意犹未尽,纷纷在讲堂微信群里进行讨论,或发表自己对运维的看法,或向讲师提运维方面的问题,讲师们也都热情解答,相信本次大讲堂一定能让大家受益良多,让我们一起期待下一期的到来吧!
点击如下链接下载讲师课件:http://bbs.tingyun.com/forum.php?mod=viewthread&tid=73&extra=page%3D1