数据基础设施技术峰会高峰对话:以驭数之道,稳数字风帆

从2020年开始,全球经历了一系列始料未及且影响深远的变化,这些都会影响经济的发展步伐,也导致全球经济形势仍充满了挑战和变数。

在此背景下,传统企业要如何打好“逆风局”?如何用数字技术提升市场竞争力,在充满变化和挑战的外部环境中,用数字化技术武装自我,以应对不断变化的外部环境和激烈的市场竞争,从而真正做到“以驭数之道,稳数字风帆”?

2023年数据基础设施技术峰会上,作为在数据基础设施建设,在企业数字化转型方面颇有建树的行业代表,江苏沙钢高科信息技术有限公司总经理黄嘉辰和中石油东方物探数据中心原总工程师、教授级高级工程师赖能和,给出了一些亲身实践后的经验分享。

数据基础设施,数字化技术最主要的价值

过去几年的经历让很多企业看到,企业在数字化技术方面的积累像是企业淬炼出的一身钢筋铁骨。很多数字化转型方面积累深厚的企业普遍受影响更少一些。

对于更多企业来说,数字化技术意味着效率的提升。在江苏沙钢的黄嘉辰看来,数字化技术最主要的价值还是流程的集成。

黄嘉辰表示,数字化技术可以从业务协同层面为客户提供有效的支撑,让客户的需求能够快速、高效地与企业对接。同时,企业通过数字化技术让客户快速地享用到所提供的服务。

从黄嘉辰的介绍中了解到,如今的数字化技术已经融入到了沙钢业务的多个环节。

从与客户发出订货需求开始,后续会对生产过程进行跟踪,对物流信息以及相应的结算也都会涉及。可以说,沙钢已经具备了通过数字化技术为客户提供数字化服务的能力。

这意味着沙钢效率的提升,也意味着用户体验的提升。然而,沙钢并不想止步于此。

黄嘉辰表示,在当前业务系统协同的基础上,沙钢还在探索如何利用在数字化层面的沉淀和积累,帮助客户提升数字化能力,最终实现产业数字化,产业协同的数字化,这是沙钢下一阶段正在筹划的内容。

黄嘉辰将企业数字化转型的历程总结为信息化、数字化、智能化三个阶段,而浪潮信息存储产品线副总经理刘希猛认为还能进一步细分为信息化、互联化、数字化、智能化和智慧化五个阶段。

在总结的同时,刘希猛还注意到,以前企业利用的数据多是结构化数据,而现在,非结构化数据利用得越来越多了。

作为长期服务企业数字化转型的一线厂商,浪潮深知数字化转型中的挑战。这些挑战的背后,终究是与数据存储紧密相关。

真实的数字化转型过程中,数据存储面临哪些挑战?

刘希猛表示,企业在数字化转型的过程中会面临多种问题,最典型的问题就是系统之间相互割裂的问题。比如,钢铁行业里,不同厂区,不同的集团公司的数据中心各有不同,这些数据中心之间的数据共享就是非常典型的问题。

这一问题的影响非常深远。当企业要用智慧化应用时,既需要企业内部的数据,同时还需要外部数据。然而,外部数据共享挑战很大,不同的企业之间的数据共享,需要保障数据的安全性和高效性。

针对这些问题,浪潮从技术方案手段提供了对应的解决方法。刘希猛表示,浪潮的存储解决方案支持多元、多类型的数据,支持数据的安全和高效共享。同时,浪潮的存储方案还具备防病毒、防勒索的能力,能为传统企业数字化转型过程提供数据支撑。

另外一个常见问题,就是数据量高速增长带来挑战。

中石油东方物探数据中心原总工程师、教授级高级工程师赖能和表示,他所在的油气勘探领域对于高性能算力需求巨大,对于数据存储的需求也非常大。过去三年,数据量增长了7倍左右,此时传统的小型存储阵列已不适用,现在更需要分布式存储来解决容量和性能的问题。

作为分布式存储的用户,赖能和分享了用户在使用分布式存储时要关注的几个方面。第一个是要了解所用的文件系统,第二个是要注意分布式存储系统的有效可用容量,第三个是关注系统的高并发性能表现。

除此之外,当数据大到一定程度之后,还应该注意如何做海量数据的拷贝。赖能和表示,目前一些厂商推出的免迁移技术就能很好地解决迁移的问题,可以大幅提高工作效率。最后,赖能和还应该注意系统运维方面的问题,考虑到系统规模越来越大,软硬件兼容性问题也要注意。

天文观测领域也面临相似的情形。

FAST 是“中国天眼”的英文首字母缩写(Five-hundred-meter Aperture Spherical radio Telescope,全称“五百米口径球面射电望远镜”),它接收信号的面积约等于30个标准足球场,它在工作时会产生大量数据,而且,这些数据需要长期存储。

此前媒体采访资料显示,FAST每秒采集的数据量最高可达38GB,每年新增数据量可达到数十PB,预计未来五年数据总量将超过100PB。这给存储提出了挑战,负责存储这些数据的就有浪潮的分布式存储系统,它满足了FAST在容量大、性能高、可管理等方面的要求。

从数据的存储到基于数据的业务创新,数据湖应运而生

在数据爆发性增长的大背景下,结合用户越来越多的数据共享、数据创新的需求,数据湖便应运而生。

赖能和表示,中石油目前已经在十个油田建成了数据湖,横跨了几十年的数据,囊括来自大量油井的数据,包含有大量原始数据。此外,中石油还计划将原始勘探数据也放到数据湖里。在此基础上,中石油还计划将数据在线,开发接口用于开发各种应用。

沙钢集团在数据湖方面也有了相对具体的规划。黄嘉辰表示,沙钢计划要建成三个层级的数据中心,分厂的数据中心、属地企业公司的数据中心和集团的数据中心,在多层级数据中心的基础上建立数据湖。在他看来,数据湖对于下一步数字化转型的要求非常关键。

数据湖的出现反映了数据应用创新方面的需求,实际上,作为数据基础设施重要组成部分的存储系统,在过去十年里也一直以加快业务创新为目标进行创新,这点可以从存储协议部分管中窥豹。

显而易见的是,过去十年以来,存储协议的类型越来越多。其中,有些协议适合做融合,融合后可以减少数据复制带来的效率问题。当然,还有一些专业应用,比如对性能要求非常高的时候,协议上不适合做融合。

融合存储的典型特征就是存储协议的融合。刘希猛表示,基于分布式架构的融合存储系统将是未来存储发展的常态,会有更多存储厂商将非结构化存储协议进行融合,推出结构化和非结构化的湖仓一体方案。

但数据基础设施有其复杂性,考虑到实际落地环境,企业用户还应该结合自己的实际需求来做出选择,不存在某个终极的解决方案帮我们解决所有的问题的情况,即使是同一个技术方案,不同用户用起来,效果可能也大相径庭。

可以肯定的是,无论处于哪一阶段,是在数据治理阶段也好,还是解决数据孤岛问题的阶段,企业还是一定要把握技术发展的最新趋势。这样才能有机会更快响应,将技术用于自身,用创新的数字化技术武装自我,以应对不断变化的外部环境和激烈的市场竞争。