孙冰:海量流数据处理的服务化
王雪杨 发表于:13年06月08日 14:55 [原创] DOIT.com.cn
第五届云计算大会于2013年6月5日—6月7日在北京会议中心隆重召开,本次大会以“大数据大带宽推动云计算应用与创新”为主题,以全新的国际视野,洞 悉全球云计算发展趋势,并从应用出发,探讨云计算与大数据、云计算与移动互联网、云安全及云计算行业应用等焦点话题,分享云计算发展经验,促进云计算创新合作。
6月7日上午,阿里云飞天开放平台总监孙冰在大会分会场进行了主题为“海量流数据处理的服务化”的演讲。他分享了飞天开放平台在海量流数据处理的服务化取得的经验。
阿里云飞天开放平台总监孙冰
大会上孙冰首先说明了一下关于流数据处理不断生长的需求。
流数据处理
孙冰认为,流数据处理服务设计的关键要素有三个:各向扩展,超强容错和确保实时。所以他从这些方面对比了离线和流两大规模数据处理。如图:
大规模数据处理:离线VS 流
接下来,孙冰从扩展、容错、实时等多个方面对垂直系统和平台服务也进行了对比。如图: 垂直系统VS平台服务
垂直系统VS平台服务
孙冰表示,对于OSPS这样一个系统来说,它是基于飞天平台的,这样做的好处在于,容错是用了非常直接的方法,如果没有飞天平台,没有一个非常好的既可以记普通文件,又可以记log文件,又高效又分布在每台机器上都能做的底层存储系统,这件事情就变得很复杂。由于我们做OSPS的时候已经有飞天平台,省了非常多的力气。接下来,我们在C++自主研发,写类似于SQL的脚本,优化在系统里做,保证数据不丢、不重,实现动态负载均衡。
孙冰表示,飞天平台设计目标是五千台物理机,每天处理PB级数据。
OSPS应用架构