全球市场洞察| IDC DataSphere最新趋势预测

北京,2024年10月18日——IDC于近日发布了《 Revelations in the Global DataSphere , 2024: Key Trends and Takeaways 》 报告,展示了全球数据圈中不同细分市场的趋势和动态,包括数据创建者(消费者或企业)、数据类型、区域和位置(中心、边缘、端侧),还包括对每年生成的结构化和非结构化数据量的预测以及GenAI带来的影响分析。

A graph with numbers and a arrow

Description automatically generated

IDC预测,到2028年全球数据量Global DataSphere将增长至393.8ZB,相比于2018年增长9.8倍。从2024到2028五年间生成的数据量将至少是过去10年生成的数据总量的2.2倍,约为过去5年生成的数据总量的2.9倍。具体来看,平均每年生成的数据中有10%是创建和采集的原始数据,其余为复制或消费的数据。

具体来看,全球数据量有以下趋势:

• 2023年每秒产生4.2PB的数据,这一数字在2028年将增长至12.5PB;

• 由于数据分析和生成式AI的广泛应用,企业数据占比将从64%增长至81%(2023至2028);

• 数据上云/云上服务更加明显,到2028年,37%的数据将会在云端直接产生,超过60%的数据会最终存储在云上;

A graph of blue bars

Description automatically generated with medium confidence

虽然数据量占比从2023年的92.9%降低至2028年的82.3%,但非结构化数据仍然是最主要的数据形式。值得注意的是,结构化数据的增长速度更快,2023-2028年复合年增长率达到49.3%,这主要是由元数据的增长推动的,元数据将数据情境化并赋予数据意义,从而实现数据分析以及联合GenAI的数据驱动决策。

A green and blue pie chart

Description automatically generated

超实时数据和实时数据处理需求增多。2023年全球生成的数据中有5.2%为超实时数据(Ultra Real-Time,数据传输延迟<40ms),16.7%为实时数据(Real-Time,数据传输延迟≥40ms,≤200ms),78.1%为名义时间数据(Nominal-Time,数据传输延迟>200ms)。未来将会有更多的实时数据处理和分析需求出现,以及GenAI的驱动,实时数仓、湖仓一体、数据集成工具、BI工具将有更多增长空间。

生成式AI也是影响数据圈的重要因素。当前GenAI生成数据中超过35%都为文本类型,但随着技术的演进升级,到2028年,超过75%的生成数据将会均匀分布在文本、图像、视频类型,同时也有接近18%的数据为软件代码。因此技术供应商需要面向长期发展,预测由GenAI带来的混合内容生成、处理和存储需求,来提供更加低延迟、高性能的服务。

IDC中国高级分析师李浩然表示,数据量和关系复杂度的上升都会为数据管理工作带来更大的挑战,企业在实现数据统一存储、管理的同时,需要关注数据扁平化与数据间逻辑关联,避免数据多次复制导致的资源浪费,保证可通过AI、元数据分析技术来全局、一致的发现和管理数据资产。