孙冰:海量流数据处理的服务化

第五届云计算大会于2013年6月5日—6月7日在北京会议中心隆重召开,本次大会以“大数据大带宽推动云计算应用与创新”为主题,以全新的国际视野,洞 悉全球云计算发展趋势,并从应用出发,探讨云计算与大数据、云计算与移动互联网、云安全及云计算行业应用等焦点话题,分享云计算发展经验,促进云计算创新合作。

点击进入DOIT直播专题

6月7日上午,阿里云飞天开放平台总监孙冰在大会分会场进行了主题为“海量流数据处理的服务化”的演讲。他分享了飞天开放平台在海量流数据处理的服务化取得的经验。

阿里云飞天开放平台总监孙冰

大会上孙冰首先说明了一下关于流数据处理不断生长的需求。

流数据处理

孙冰认为,流数据处理服务设计的关键要素有三个:各向扩展,超强容错和确保实时。所以他从这些方面对比了离线和流两大规模数据处理。如图:

大规模数据处理:离线VS 流

接下来,孙冰从扩展、容错、实时等多个方面对垂直系统和平台服务也进行了对比。如图: 垂直系统VS平台服务

垂直系统VS平台服务

孙冰表示,对于OSPS这样一个系统来说,它是基于飞天平台的,这样做的好处在于,容错是用了非常直接的方法,如果没有飞天平台,没有一个非常好的既可以记普通文件,又可以记log文件,又高效又分布在每台机器上都能做的底层存储系统,这件事情就变得很复杂。由于我们做OSPS的时候已经有飞天平台,省了非常多的力气。接下来,我们在C++自主研发,写类似于SQL的脚本,优化在系统里做,保证数据不丢、不重,实现动态负载均衡。

孙冰表示,飞天平台设计目标是五千台物理机,每天处理PB级数据。

OSPS应用架构