为什么说数据存储技术已经比较完美?

因为至少在纠错方面已经没什么需要改进了。

可靠的数据存储是IT行业的关键,也是现代生活的关键。虽然我们把这当成理所当然的事情,但是这其中存在什么样的谎言呢?数据视频专家,IT写手John Watkinson带你了解数据存储的相关细节,以及对未来存储技术发展的猜想。千万别烧糊大脑噢。

电脑之所以使用二进制,是因为数字简化为0和1后,由两股不同电压呈现出来时,最容易被区分开。

在闪存中,我们可以用一束绝缘电子保存这些电压。但是在其他存储设备中,则需要物理模型。

以磁带或硬盘为例,我们先看看小环境内磁化的方向,N-S或S-N。在光盘中,差异则以有没有小坑表现出来。

生物学里,DNA就是一种数据记录,这种记录以离散状态的化学物质为基础。“比特”的差别会导致变异,而变异则导致进化或是导致某种蛋白质的缺失而致病。数据记录对生命而言至关重要。

数据存储无处不在:CD, DVD, DAT, DCC, HDD, MiniDisc, SSD, SD, Sim, 软盘,超级磁盘,磁条,条形码

二进制的媒介并不在乎所呈现的数据是什么。一旦我们可以放心记录二进制数据,我们就会把音频,视频,图片,文本,CAD文件和电脑程序放到相同的媒介上,然后完整复制。

这些数据类型之间的唯一差别是其中的一些数据需要在一个特定时间内重复生成。

时机,可靠性,持续时长及成本

不同的存储媒介有不同的特点,没有哪种介质尽善尽美。硬盘在读取密集型应用上存储性能最佳,但是硬盘不能从驱动中移除。尽管硬盘的数据记录密度一直比光盘的大,但是你花个几秒钟就可以置换出光盘。而且,光盘的贴标成本也很低,所以适合大规模发行。

闪存可提供快速访问,而且体积很小,不过它的可持续写入周期存在局限。尽管闪存替代了以前的软磁盘,但是软磁盘技术并没消失。它还存在于航空公司,火车票,信用卡和酒店门房钥匙的磁条中。条形码就是个很好的例子。

在闪存中,存储密度是由单个电荷井的精细构造程度来决定。但是光盘技术的发展不仅可以保存越来越多的信息,而且可解析的数据也越来越小。

U盘中的芯片:没有活动部件,可直接使用

在旋转内存中,无论是磁盘还是光盘的,都存在两个问题:我们要尽可能收集多一点轨道,同时要尽可能多地把数据放到轨道中。

这些轨道极其狭窄,需要主动跟踪伺服系统使磁头可以持续被记录下来,而不受耐受力和温度改变的影响。为了减少磨损,用于收集的磁头和磁盘之间是不接触的。

光盘会盯着轨道,虽然是从微观角度,但却是由磁力驱动,磁头掠过磁盘上方几纳米处的气膜。自相矛盾的是,它是闪存,没有会带来磨损的活动部件。

编码

磁盘会扫描自己的轨道,然后按顺序收集数据。我们不能只是在磁盘轨道上写入原始数据,因为如果这些数据包含了相同的比特,那么就无法区分这些比特,读取器的同一性也会丢失。相反,数据是通过一个名为信道编码的进程来修改。信道编码的功能之一就是保障信号中的时钟内容,而不考虑真正的数据样式。

在光盘中,追踪和聚焦是过滤数据后,通过收集光圈查看数据追踪的对称性来执行。信道编码的第二个功能是去除数据追踪的DC和低频内容,使过滤更有效。圆形光点很难分辨轨道上距离太近的数据。

大众媒体

第一款量产的纠错应用存在于压缩盘中,1982年上市,这是在Reed和Solomon的论文发表22年之后。CD的光学技术是早期的镭射影碟,那么它的不足在哪里呢?

首先,数字音频光盘要实时播放。播放器不会把错误视为电脑本身的功能,所以必须得将其纠正。再者,如果CD使用的系统比Reed-Solomon编码更简单,那么这个系统将会更大–因此,将影响到便携式和汽车播放器市场。第三,Reed-Solomon纠错系统是复杂的,在LSI芯片上部署比较经济。

早在十年前,用于制作压缩光碟的所有技术早已出现,但是直到LSI Logic 公司的芯片性能跨过某个特定门槛,其性能才突然变得经济实用。

同理,之后也是在LSI技术可以用消费者可接受的价格执行实时MPEG解码时,我们才看到了DVD的流行。

综合

所有光盘用来客服这些问题的技术都被称为分组编码。比如,如果所有可能的14比特的结合体都被排序,且以波形描绘出来,就可以选择出最容易记录的。

分组编码如何限制记录的频率呢?在a) 表示的最高频率点,转换间隔了三个信道位。这样信道位的记录密度就成了三倍。注意h)是无效编码。最长的信道位运行于g),而i) 无效编码。

上图显示出,我们排除了改变太紧密的模式,因此记录的最高频率被减少了三分之一。

我们还排除了1和0之间存在较大差异的模式,因为那样带来的是我们不想要的直流偏移。267保留了我们许可的模式,比起要记录八个比特的256模式要好,剩下可同时使用的模式少之又少。

EFM

Kees Immink的数据编码技巧使用14个信道位的模式来记录八比特–因此,其名称就是EFM(eight to fourteen modulation)。三种合并的比特被放在各组之间,防止边界出现混乱,所以17信道位被用于每个数据的记录。这样是违背直觉的,直到你意识到编码规则将信道位的记录密度提升三倍。所以,我们以3 x 8/17胜出,密度比率为1.41。

是信道编码机制本身增加了41%的播放时间。笔者认为在30年前能做到如此是非常不错的。

压缩光碟和MiniDisc使用的EFM技术借助了波长为780纳米的激光。DVD使用的是其变体,EFM+,激光波长减为了650纳米。

蓝光格式也使用分组编码,但不是EFM。而是信道模拟,称为信道调制,也称1.7PP调制。它的密度比率要稍逊一些,但由于使用了波长为405纳米的激光,所以存储密度有所增加。这种激光其实并不是蓝色的。

磁带记录器的磁头有两极,就好像微型马蹄铁,当磁头扫描轨道时,两极之间的有限距离会产生孔径效应。

下图显示出频率响应就像一个梳子状的过滤器,带有周期性的暗码。传统的磁带记录被限制在下面第一个暗码的波段部分,但是在第一和第二个暗码之间,则由部分响应技术来掌控,这样就把数据容量翻了一番。

所有磁性记录器都存在磁头间隙导致的回放信号a) 的暗码问题。在b) 显示的部分响应中,磁头感知不到奇数位的数据,于是会回放偶数位的数据。一个比特之后,两个偶数位数据就会被恢复。

如果数据太小,以至于其中一个数据(奇数位置)其实就在磁头间隙处,那么磁头的两极却只能识别两边偶数位置的数据,然后输出。这两种数据相加就成了第三级信号。磁头会交替重复生成交叉存取的奇数和偶数数据流。

使用两股数据流的合适信道编码,那么给定数据流的外部层级就可以轮流使用,这样就更具可预测性,而读取器也可以掌握这种预见性使数据更为可靠。这就是现如今让硬盘容量超乎想象之大的PRML编码。

纠错

在真实世界中,热活力或无线电干扰都是影响我们记录的因素。显然,用二进制记录是最难被干扰的。如果有一比特的数据被干扰,那么会引起整个数据的改变,因为1会变成0或者0会变成1。如此明显的改变会被纠错系统检测出来。在二进制中,如果有一个比特是错误的,那么只需把它设置为相反的那个数就可以了。因此,二进制的纠错是比较容易的,真正的难点在于找出有错的那个比特。

使用二进制以及具备有效纠错/数据整合系统的存储设备可以再次生成所记录的相同数据。换言之,数据的质量从本质上是透明的,因为从媒介质量那里,它就已经实现了去耦。

有了纠错系统,我们还能在任意类型的介质上做记录,包括没有经过优化的介质,如火车票。以条形码为例,只有当印有条形码的产品靠近读取器时,纠错系统才会执行任务:要确认已经发现条形码。

市场存在减少数据存储成本的压力,这就意味着要把更多数据放入给定空间内。

没有哪种介质是完美的,所有介质都存在物理缺陷。由于数据越来越小,这些缺陷就显得越来越大,所以缺陷导致数据出错的几率也在增加。

纠错需要在真实数据中加入检测数据,所以让人感觉记录效率会被降低,因为执行这些检测也要占用空间。事实上,少数额外的检测任务会让记录密度翻倍,所以这是存储容量的净增加。

一旦了解到这一点,就会明白纠错是很重要的一项技术。

第一个实用型的纠错代码是Richard Hamming 1950年开发的。Reed-Solomon编码则是1960年发布。纠错代码的发展史其实只有十年。

纠错要向真实信息添加检测数据,要优先于记录,从这些信息中进行计算。这些信息和检测数据一起形成了一种代码字,这表示它具备了一些可测试的特性,如通过特定的数学表达式来区分。播放器会对这些特性进行测试,如果发现数据有错,就不能获取可测试的特性。余数不会是零,而是被称为综合症的一种模式。通过分析这种综合症可以纠错。

在特定有限域上的Reed-Solomon 多项式代码

在Reed-Solomon代码中,有若干对不同的数学表达式,它们被用来计算校验符。一个错误会导致两种综合症。解出两个方程,就可能发现错误的位置以及导致综合症出现的错误模式。

错误被呈现并被纠正

如果没有可靠性和存储密度,那么我们现在所使用的这一切将不复存在。我们的数码照相机所拍的照片会被光点破坏,那样我们会更喜欢使用传统胶卷。

如果没有Reed-Solomon纠错系统,那么压缩光盘怎么会出现呢?

借助纠错系统,记录密度会持续增长,直到极限。每个比特使用一个电子的闪存;一个磁化分子代表一个比特的磁盘;使用超短波长的光盘。或许它会被冠以别的什么名称。在达到极值前,存储容量会呈平稳态势。

力臻完美

最先由Claude Shannon依照科学原理总结出的信息理论决定了纠错系统的理论局限性,就好像热动力学原理对热引擎效率的局限一样。

但,在真实世界里,没有机器会达到理论效率极值。Reed-Solomon纠错代码就是以信息理论设定的理论极值来操作。所以不会再有更强大的代码了。

纠错系统的纠错能力是显而易见的。笔者之所以对此表示怀疑,是因为纠错理论专业且神秘,以至于不懂的人根本不敢涉足,因而只能留给懂这些东西的人来处理。

尽管,纠错系统编码的局限性已经出现,但并不意味着不会再有新突破。纠错和信道编码都需要对信息进行编码和解码,而这就遵循摩尔定律。

因此,编码系统的成本和规模都会随着时间的发展而减小,或者其复杂性会增加,使得新应用成为可能。尽管如此,如果未来出现新的二进制数据存储设备,使用的是我们闻所未闻的介质,纠错系统将仍然是基于Reed-Solomon编码。