再过几天就是国庆小长假了,今年国庆节恰逢中秋节,也成就了史上最长国庆小长假。每逢小长假,动物园都会是家长和小朋友首选的游乐场所,可以预计,到时候动物园又会是人山人海的景象。与真实生活中的动物园相比,大数据平台的数据动物园,也就是DataZoo,同样希望兴旺发达,人气爆棚。
所谓“数据动物园(DataZoo)”是荣之联在9月27日,国庆前夕,对外发布的大数据平台。之所以取名“DataZoo”,据荣之联执行总裁方勇透露,大数据领域,从Hadoop的标志物小象开始,到Hive的蜂群,都是以动物作为形象。荣之联将新推出的大数据平台命名为动物园(Zoo),就有囊括最新科技发展的用意,志向可见一斑。
DataZoo带来的行业改变
俗话说:“没有金刚钻,不揽瓷器活”。DataZoo夸下海口,但在应用上真有什么过人之处呢?
从目前大数据的技术生态来看,大致可以分为5个层次的服务:数据平台服务、ETL/可视化、机器学习/统计工具、数据分析以及整体解决方案。在每个生态领域,有各自的代表厂商;生态不同,其定位也不尽相同。
就DataZoo而言,它的定位在数据平台。对此,荣之联副总裁丁洪震表示:从目前的大数据市场应用环境看,主要的应用场景一是解决传统数据分析平台所遭遇的性能瓶颈,通过大数据平台引入解决数据分析的效率问题,这是大数据基础平台提供的主要服务。除此之外,大数据应用的另外一个场景就是解决业务创新和科学决策的问题,解决行业业务发展所面临的瓶颈问题。就荣之联大数据平台DataZoo而言,主要针对这两个市场提供服务。特别是大数据技术和行业业务的结合,这将是DataZoo的重点。
据了解,目前DataZoo在公安/政府、轨道交通、车联网和水联网等行业领域,结合业务需要提供了多种类型的大数据分析服务。以驾驶员行为分析为例,借助车联网多年应用的积累,以及车辆相关参数的自动化采集,可以对驾驶员操作行为进行跟踪和分析,一方面可作为制定保费的依据,提供更具有针对性的保险服务;另外一方面,也为汽车设计和制造提供更多的信息。、
“但是也应该看到,大数据应用和行业应用的结合尚处于一个摸索的阶段,大数据应用要想发挥更大的作用,还需要透过行业业务创新和管理才能够落地,而这需要大数据技术和行业应用的紧密结合。这也是目前DataZoo的发力点。” 丁洪震说。
DataZoo的硬实力
当今时代,为什么互联网企业要风得风,要雨得雨,呼风唤雨,神气十足,应该说对于开源技术的熟练运用是其背后的原因。与之相比,开源技术就是太复杂了,以Hadoop为例,不论是Map/reduce、Spark、Hive,还是Kafka、Flume、Sqoop,不是每个人都能够编程、操作代码的。以报表为例,很多用户习惯的还是SQL查询,所以为了增加易用性,很多开源工具开始支持SQL,目的也就是为了拉低使用的门槛。
据了解,在开始的阶段,DataZoo也是为了解决易用性和兼容性的问题,自己内部使用的工具,用于支持公司的业务应用。在使用中,这些工具得到了合作伙伴以及用户的好评,这也最终促使荣之联下决心以大数据平台产品的方式对外提供服务。
从技术上说,DataZoo具有Hadoop平台结构的能力,可以为分布式是数据分析服务提供支持。在这个基础之上,提供了批处理、实时流处理、多维搜索、图计算和数据挖掘等功能模块。其中,不同的功能模块解决不用的问题,有的针对排序,有的针对流数据处理,总之,希望在易用性方面为行业用户提供更多的支持。
以多维检索为例,前面说过,有些用户只熟悉SQL,要求系统能够支持SQL方式查询,另外就是多维检索的性能问题,目前DataZoo能够支持亿万数据规模秒级的响应速度,在没有缓存支持的情况下,80% 左右的查询能够在3秒返回,这样的能力在业界首屈一指,处于领先的水平。
这些功能模块透过和行业应用结合,积累了丰富的行业应用模型,如驾驶行为模型、碰撞分析模型、推荐模型、用户画像、文本分析分词和情感分析模型,这些模型在实际行业应用中积累了大量的知识点,这些知识点最终将会成为最为宝贵的财富。
小结
大数据和人们的预期还有很大的距离,这不完全是技术问题,类似电脑在普及阶段被作为打字机使用,但这是一个好的开端,随着技术水平的提升,技术效果将逐步显现出来。从另外一个角度看,冬天也意味着春天并不遥远,可以预计, 数据动物园春天并不遥远。