DoSTOR专家博客 核心存储技术的未来发展(一)

      DoSTOR专家博客:本为作者为业界知名技术专家Mark Lewis,现任EMC公司执行副总裁兼首席开发官


      最近,我写了很多关于信息技术和技术管理的博客文章,但是我还没有说过我对核心存储技术的未来发展的最根本的看法。


      首先,我预计这篇文章一定会引起业界代表不同意见的各方之间的激烈争论。我想,值得一提的是,EMC作为一家以客户为中心的公司不管是现在还是将来,都将根据市场的需求为客户提供技术和解决方案。 不要因为我在这里发表一些预测性的话就想让我们停止生产产品。我们的生产是建立在需求的基础上,而不是预测的基础上。


      但是,在我能够讨论存储需求之前,我首先要让大家明白我对数据与信息不断增长的需求的看法。数据就是存储设备的客户,因此要想弄明白存储设备要到哪里去,大家应该从数据入手。


      我相信数据世界将仍分裂成两个不同的类型,之前通常被称为结构化数据和非结构化数据。但是由于各组织必须将越来越多的结构添加到它们的非结构化数据中以让那些数据有用,因此事情将变得不再简单。 因此,实际上所有的数据和信息都将变得更结构化一些。 这些词已经不能很好地说明数据类型了。


      相反,我认为数据的区分将越来越以我所说的“单事件等待时间(single transaction latency)”为基础。 如今,OLTP系统都有这方面的要求,处理事件的性能仍是联合存储系统中最重要的因素。由于大部分OLTP系统都是采用的单一关系数据库(为了保证一致性),因此单事件等待时间这个因素就非常重要。 总带宽和输入输出能力是排在等待时间之后的第二重要的因素。你可以将这个系统看作是一个只设了一个收费站的高速公路网络,收费站的性能(即车辆进出收费站的等待时间)将极大地影响到整个系统的性能。


      相反,大多数的剩余信息(估计目前占70%以上,而到2010年时将增长到95%左右)将被归为“其他种类”,我将把这类数据称为“网络”数据。正如我所说的,这类数据与上面的数据相比的决定性不同在于,单事件等待时间不是最重要的因素。 例如,让我们以在网络上进行搜索为例。你进行的任何搜索可能都要花0.5秒的时间。 如果它所花的时间变成0.45秒或者0.55秒,影响是否会很大呢? 我看影响不大。 因为许多人都可以同时进行搜索,这里需要注意的问题是累计性能。在高速公路上,你可以设置速度比较慢的收费站,但是在你最终忍受不了之前,它们并不会构成高速公路系统上的瓶颈。


      我相信我们将看到非结构化数据也需要变得更加结构化一些。 显然,使用传统的关系数据库是不行的。在数据库应用程序中将网络数据隔离开来也不是很好。 那些“结构”将来自于标记、索引、元数据和带有定义化本体的对象结构。


      我们最近收购了一家名为XHive的公司,该公司开发的许多技术对我们很有帮助。XHive公司实际上开发的是XML数据库技术。 这样就可以用一种更相关的方法将数据结构化,同时避免限制到使用带所有权保护的数据库结构。由于数据和元数据都是XML格式的,没有被锁定到任何应用程序上。


      在这些数据类型之中,还有很多很多影响着存储设备和信息生命周期管理需求的其他性能、可靠性和信息要求。那么我为什么要根据这一个因素来定义数据类型呢? 原因就是简单,对于OLTP应用程序来说,处理事件的等待时间方面的需求会推动整个存储结构的优化。对于网络数据,结构将更多的受到累计系统要求的影响。


      虽然数据类型和要求的数量显然达到了不可穷尽的地步,但是首要的前提是存储结构必须在不远的将来解决数据的这两个基本要求(过去,数据是以结构化和非结构化来区分的),我现在认为它们更适合被称为OLTP数据和网络数据。


      在下一篇博客文章中,我将讨论核心存储技术的使用和信息利用率的未来发展情况。