啥是大数据“拖油瓶”?

说到大数据,不妨用NBA做个比喻,NBA明星有巨星、超巨的说法,对于大数据而言,曾经是超巨,现在最多就是一个巨星,已经远离了超巨的行列。对于NBA而言,导致这样的落差,伤病是一个主要的原因,那么对于大数据而言,原因是什么呢?

有人说是Hadoop、Map/Reduce,所谓成也萧何,败也萧何。大数据技术因Hadoop、Map/Reduce而兴起,但是Hadoop、Map/Reduce太复杂,也影响了大数据的应用推广,Hadoop、Map/Reduce是名副其实的“拖油瓶”。

但是在专业人员的眼中,“拖油瓶”另有其主。

网易数帆有数产品总经理余利华

网易数帆有数产品总经理余利华指出:从大数据底座、到数据中台、再到数据应用,每个链路都需要更好的打磨才能服务好客户,才能够达成实际业务中“人人用数据、时时用数据”的目标,真正发挥数据生产力。以数据中台为例,如今各个节点、系统的数据聚合成本越来越高,甚至拖慢了应用交付,与此同时,数据应用对实时数据的需求日趋增多;非结构化数据理解也需要更多技术手段支撑。

针对大数据应用现有的问题,网易数帆旗下网易有数发布了全新的全链路数据生产力平台2.0,推出了DataOps、逻辑数据湖、实时数据引擎、机器学习平台等技术工具和解决方案。

与传统瀑布流式开发方式相比,DataOps引入DevOps的思想,在开发、测试、部署阶段过程中就对接有关数据,迭代式更新,针对不同阶段的数据需求,提供一个跨越全流程的自动化开发工具。

DataOps全流程

从效果上看,网易云音乐使用DataOps对上线前代码的风险进行有效排查,自动运行测试,使得数据质量问题下降了接近90%,平均需求交付周期从5天下降到2.5天,效率提升100%。

“逻辑数据湖”核心价值就是统一源数据信息、数据标准和数据源,同时兼容遗留系统,支持Oracle/MySQL/Vertica等7类系统,实现数据的统一开发和统一治理,是一种物理分散、逻辑统一的数据中台。

有数逻辑数据湖

余利华指出,在不要求数据迁移的前提下,逻辑数据湖实现了数据中台集中管理。

针对实时数据的使用需求,网易有数发布了实时数据湖引擎Arctic,在全链路的数据应用节点上,网易数帆也分享了自己多年的实战经验,推出了有数机器学习平台,去帮助企业理解及处理各种结构化和非结构化数据。

可以说,网易有数全链路数据生产力平台2.0从专业角度指出了目前大数据应用的问题。

实际上,不管是什么拖累了大数据应用的推广,对于用户而言,数据应用创新的需求是始终高涨的,以电商为例,无论是管理层,还是股东投资方,都希望能够随时看到销售情况、以及货物的销售情况、需要补货的情况,传统的报表方式是没有满足需求,就需要各种大数据技术的加持。再例如物流行业,物流效率非常重要,有用户想到的方法就是将数据应用和企业微信进行对接,榜单、排名等一目了然,极大提升了企业的管理效率。

所以,对于企业来说,大数据“拖油瓶”争论并不重要,企业关注还是解决应用的问题,这里的问题有大有小,有些用户数据系统众多且标准不一,面临的紧迫问题是不同系统之间的数据治理问题,就需要数据中台的解决方案,对于创新企业和中小企业而言,数据应用创新的需求更加迫切,能够解决问题的方案就是好方案。大数据生态有20多个功能模块,相关的开源项目层出不穷,如Hive、HBase等,不管它们称为数据仓库、列式数据库,还是大数据,只要能够解决问题,都是值得推崇的。

因此,大数据真正的“拖油瓶”并不是某个具体的产品技术,真正的拖油瓶” 是跟不上技术发展的步伐,大数据需要我们能够真正理解数据的价值,并结合实际需要巧妙加以应用。