会客厅:华为智能数据与存储全景透视

智能时代需要什么样的数字基础设施?数据智能三要素:数据接入、数据处理、数据使能,哪一个才是当务之急?

2019中国数据与存储峰会期间,Doit总编宋家雨特邀华为智能数据与存储领域副总裁张福鹏进行交流。

智能数据时代需要什么样数据基础设施?话题由此展开。

张福鹏表示:数据正在成为新生产资料,算力正在成为新生产力,5G+云+AI成为生产工具,让数据全生命周期内更好使用,让其价值更大,成本更优。

数据基础设施应该是一个融合、智能、开放的基础设施,其中融合要让数据库、大数据和存储进行融合,生成场景化解决方案;智能会形成数据管理的系统,使得它进行数据的全生命周期管理,开放是河图引擎(HetuEngine),让伙伴和客户更好使用华为产品和技术。

谈到华为数据智能三要素,张福鹏表示:发展比较快的,还是华为最擅长的数据处理和数据存储,其中大数据平台和底层分布式存储之间的融合发展很快,很多行业企业客户已经开始实践智能数据湖解决方案。

“有两点需要产业生态一起完成,第一是数据接入,不同行业存在很多数据接入的问题,场景不同、人员不同、业务不同,其数据类型差异很大,这些数据怎么接入,这需要懂行业、产品的人做。第二是数据使能,此前华为有一个称为大禹的工具,如今,主要依靠河图引擎,这是一个数据虚拟化引擎,让数据治理工具和平台变得更简单,让底层基础设施变得简单易用,此后才是数据治理,期待更多行业伙伴来完成。” 张福鹏说。

具体数据存储,在FusionStorage 8.0为代表的分布式存储和以Dorado V6为代表的全闪存产品之间,应该如何选择呢?

    张福鹏的观点认为:华为认为未来客户应该打破存储内部系统架构,让生产、分析、归档、备份四个场景都是一套架构,让数据很好存储和使用。为此,华为会统一采用OceanStor品牌,此前的Fusionstorage 8.0,会称为OceanStor分布式存储,而Dorado V6称为OceanStor全闪存系列产品,华为会在这两个方向努力。

这两个产品对应不同的场景,OceanStor分布式存储更适合海量数据云化扩容的场景,面向文件和对象这样的内容;全闪存面向高性能、高可靠应用场景,客户一般会按照场景选择产品。但是不管怎样,都会统一采用OceanStor作为存储产品品牌。

既然如此,具体到华为的GaussDB数据库,应该如何选择存储基础设施呢?

张福鹏强调:华为GaussDB也是分为分析型和交易型两个场景,其中在分析型场景下,其商业化的进程稍微快一点。传统大数据分析、FusionData都是用分析型场景,适用于分布式存储产品场景。在交易型场景下,对应华为Gauss DB T系列,就是交易型系列,属于全部自研场景解决方案,基于鲲鹏生态提供更好的性能,支持64核计算,具有AI内核基础,能够兼容主流数据库算法。交易型场景适用于全闪存产品。此外,还有数据边缘的应用。

以上三个场景不是割裂的,而是构建在一体化数据基础设施上,整体对外提供河图引擎,一个目录、一个接口、一份数据、统一安全,为此就会进行整合,以银行智能风控为例,在业务在交易过程中,也有分析,有AI应用进行干预,因此三者之间的边界不会太清晰,因此会在数据基础设施框架下走向整合。

如何加速AI应用呢?数据建模会成为障碍吗?在张福鹏看来,AI在数据领域应该分为两个方向。

    第一个方向,AI如何使用才能够帮助客户的业务变化,有了很好的数据,如何让AI成为一个工具,帮助企业更好的提升客户体验,更好地进行决策,变革更好的流程,这个部分,华为依靠河图引擎,使得上层应用可以很好使用AI。来完美调用底层数据

第二个方向, AI要让基础设施设备管理更加高效。运营数据基础设施需要好的专家,否则设备再好也难以发挥。有鉴于此,要让AI技术按照场景化、服务化的方式进行数据基础设施的自动化,数据进行全生命周期的自动管理。

华为怎么帮助客户?

业务的智能,主要是通过河图引擎使能合作伙伴和客户做好AI应用;而设备的管理,华为主要是提供了数据管理系统DMS,有三层架构。

    第一,在云端有华为云,可以帮助客户进行海量的训练,使得业务可以进行逐级添加或者缩减。

    第二,针对设备层有数据管理引擎DME,提供分钟级的运维管理。

最后就是到底层产品,提供毫秒级甚至是微秒级的部署。

谈到鲲鹏处理器,华为会不会把这种能力对外开放呢?以存储为例,这种经验会对外分享吗?

    谈到鲲鹏生态,张福鹏表示:华为对鯤鹏产业的期待,就是希望构建一个共享鯤鹏计算产业,为世界提供多样性的计算能力,鯤鹏处理器是ARM兼容的,是基于华为鯤鹏系列处理器,包括昇腾AI处理器,通过一系列组合来完成。

    华为采用硬件开放,软件开源,使能合作伙伴的生态策略,会聚焦在数据处理器主板和华为云业务,在存储、数据库、大数据方面,华为做一部分,合作伙伴做一部分,因此本身就是开放的,对外,华为会提供鯤鹏计算主板,合作伙伴可以据此开发服务器以及顶层应用。以基于鯤鹏的GaussDB数据库为例,有计划明年开源出来,让更多的人知道,如何使用64核鯤鹏处理能力,对比业界主流芯片只有48核。

为什么华为愿意做数据库、大数据和存储的产品?华为认为处理器技术有很多复杂度,很多高端客户也期望华为能够提供高品质产品和服务,为此,华为还是做一部分高端客户,使得产品规模、品质起来。合作伙伴在用鲲鹏处理器开发产品和场景化定制的时候,就可以享有更好的效益,降低成本。

华为的存储、数据库和大数据产品,也会按照战略硬件开放,软件开源,存储也会提供OEM集成。

华为会发布纯软件的存储产品吗?

张福鹏的答复是:华为的产品有纯软件能力,但销售的过程,也发现客户需求不是一个纯软件内容,用户更多关注华为能不能更好解决成本效率、易用性、可扩展性的问题等。如今,数据基础设施有太多分割,以虚拟化、软件定义为例,看似简单了,实际上复杂度上升。以电信运营商市场为例,5G方面,很多年就在搞软件定义优化基站,但成本效率、复杂度随之变高,会打开一个潘多拉盒子,如对接、兼容性的问题。

企业未来最重要的问题是:能不能找到数据,用好数据,如此,他没有那么多时间培养一些人,关心底层环境怎么搭载?

为什么有云的概念?就是因为云实现了标准化,服务化。但是云在推广过程也遇到了问题,并不是所有数据当下就可以上云,也不是未来所有数据都可以上公有云,未来云技术无处不在,但是是否在一个标准化的公有云上?答案是:不一定!可能是几朵云。

这个时候需要一个统一云架构,怎么样做好数据分层、分级管理,这个过程复杂度是比较高的,这是相当困难的。为此,华为认为未来还是要相应集成,要能够进行组合。

    一句话,华为有纯软件产品的能力,但是,目前客户并不是这样的需求,用户需要更简单、高效的解决方案。