“大数据虽然极具价值,但真正释放大数据的能量,推动大数据应用并非易事。” 浪潮集团系统软件总监、云计算产品研发部总经理张东在11月27日浪潮集团大数据战略发布暨云海大数据一体机产品发布会指出,大数据类型复杂、规模大,单一方案不可能满足所有的需求,不论传统的OLAP还是新兴的分布式技术,都有特定的短板,厂商需要根据客户的应用特点提供定制化的方案。
挑战一:基础设施难以持续单向扩张
“IDC公司2011发布的统计数据显示,数据总量每过两年就会增长一倍,而且很多客户的数据累积速度还要更快。但是硬件平台还很难进行单向的无限制scale-out扩展”,据张东透露,现在HADOOP、map reduce等分布式技术即使扩展性比OLAP等技术有了重大的提高,但是仍存在扩展上限,比如传统的Oracle RAC最大可支持100个节点,HADOOP集群技术理论支持4000个节点,因而用户在采用横向扩展架构时,更要注意纵向扩展。
基础设施规模不断增大也会带来其他的问题,首先是系统的可用性,因为大规模的系统只要其中一个硬件出现故障,马上就会引起整个系统做恢复,所以,分布式系统应该采取多副本技术,但是又会降低系统的效率。与此同时,随着规模的扩展,网络也会制约系统性能的发挥,网络流量的增加是指数级的,通讯瓶颈让规模无节制的扩展失去了意义。
挑战二:数据处理复杂性需要个性化平台
无论是结构化的,半结构化的,非结构化的数据,直至最终的数据挖掘都需要把数据精细划分,并且能够形成准结构化的步骤,在这个基础上建模型,进行数据关联性的分析,最后呈现在眼前的只是数据挖掘后的结构。
这个过程说起来简单,但实际很复杂。首先环节多,每一个环节对于数据,对于软件和硬件,对于IT基础设施的要求是不一样的,尤其从非结构化数据里面挖掘出信息,比如从照片里面去做挖掘,第一步要挖掘大家穿什么衣服,接下来还要判断这里面是年轻人还是老年人,衣服的颜色是什么……每一张照片可能完全不一样,但是到后面再做数据模型的时候,数据的关联度就会急剧上升,任务却没法做得非常非常细碎,用某一个单一的软硬件无法处理数据挖掘里面的所有类型,所有应用。
更重要的是,在中国行业用户是大数据应用的主体,行业用户里不是每一个行业用户都是IT方面的专家,不可能把环节里面所有事物全部解决,因此行业用户就需要一个一体化的解决方案,把数据收集,从归类,到挖掘,到展现全部解决掉,最后只是形成一种服务,形成应用。
总之,多类型、多维度数据处理环节的复杂性决定了无法依靠单一类型的设备完美处理,为不同的应用类型和数据处理阶段提供针对性的软硬件方案也是大数据应用面临的挑战。
挑战三:天价成本,“想说应用不容易”
目前存储越来越频,存数据非常便宜,但是处理数据成本仍然比较高,特别采用传统的方法,比如用数据仓库这样的技术,可能花几千万构建数据仓库,然而能够处理数据规模也不过是TB级的,平均下来每个TB甚至有十万的成本在里面,而现在要处理大数据的量是相当大的,几十T,甚至上P都是很正常的,如果按照前面成本一个P大概100亿的成本,这个是对很多用户无法接受的。如何寻找低成本的方案帮助我们更多用户采用大数据的处理技术,把它的数据进行处理,也将为大数据的应用带来挑战。