专家问答:30问解读飞康SIR重复数据删除技术

    1. 什么是 SIR?


    SIR,即单实例存储 (Single Instance Repository),是飞康公司在虚拟磁带库 (VirtualTape Library, VTL)技术的重复数据删除扩展。具备SIR性能 的 VTL 会对磁带库中的数据进行分析并创建一个仅包含唯一数据的单一实例的存储库,该过程即是“重复数据删除”。重复数据之前占用的空间可释放出来并用于其他用途。
  
    2.如果只有单一实例,如何保护我的数据?


    存储库会像其它关键存储一样通过镜像和复制实施保护。内置的同步镜像功能,可用于预防本地磁盘故障。IPStor 的复制功能也可用于存储库,但在没有VTL的情况下,存储库内容毫无意义,因此可用 VTL 的复制选项代之进行存储库的复制,以实现集中管理和灾难恢复。
  
    3.SIR 是否会导致备份作业变慢?


    不会,当备份作业完全写入虚拟磁带后,才会进行重复数据删除操作。具备SIR性能 的 VTL 的重复数据删除对备份性能毫无影响。
  
    4.SIR可以节省多少空间?节省的存储空间如何处理?


    存储量节省幅度直接取决于数据本身以及用于保护数据的备份策略。一般而言,数据备份越频繁且保留时间越长,使数据保持在线状态所需存储空间的节省幅度就越大。部分计划处理程序会使用一个分析工具来计算特定环境中的实际重复数据量。


    带库中释放出的空间通常用于创建附加的虚拟磁带,使更多数据保持更长时间在线,以在更长的时间内提供更快的恢复速度。
  
    5.市场中有的产品宣称缩减比率达到 300 比 1,飞康SIR的缩减比率是多少?


    不论其他公司的宣传数据如何,任何重复数据删除过程中的缩减量完全取决于单个数据和备份策略。我们也曾遇到缩减比率达到 1000 比 1 的重复数据删除案例,但我们不会将它作为真实的代表案例来宣传。对于一般的企业数据和备份策略,我们认为 30 比 1 更符合实际情况,但具体缩减比率会因公司而异。
  
    6.出于安全考虑,目录保存在哪里?


    与 VTL 目录一样,SIR 目录保存在自己的 LUN 上。两者都可以使用同步镜像来保护,以预防本地磁盘故障。由于VTL 的复制选项可对所有 SIR 内容和元数据进行复制,因此可用于集中管理和灾难恢复。
  
    7.VTL 如何知道何时进行重复数据删除?


    重复数据删除策略与复制策略一样是在 VTL 中设置的。可以为整个库、库中的磁带组、甚至针对单个磁带设置,触发重复数据删除的策略。可以根据一天中的时间、卸载后时间、复制前时间、剩余库容量、创建后保留时间长度等标准来设置策略。
  
    8.如果磁带正在进行重复数据删除时有人需要使用该磁带,怎么办?


    请求使用某个磁带时,会暂停重复数据删除处理。使用完毕并卸载虚拟磁带后,SIR 会决定继续还是重新启动重复数据删除。
  
    9.如果写入到已删除重复数据的虚拟磁带会怎样?


    具备SIR性能 的 VTL 不会更改虚拟磁带的可访问性。可以像平时一样,对这些磁带进行访问、重新写入或添加。重复数据删除是独立进行的。
  
    10.重复数据删除对复制有何影响?


    由于 SIR 是 VTL 的扩展,所以 VTL 中的复制策略可以保持不变。由于只复制唯一数据,所以具备SIR性能 的 VTL 复制效率更高,极大的减少降低了提供灾难恢复时对带宽的需求。


    当被复制到中央站点的虚拟索引磁带所指向的数据块尚不存在于中央存储库中时,何时复制新的数据块?当中央 VTL SIR 发现存在新的唯一数据块时,中央 SIR 会立即从远程存储库中读取并存储这些新块。
  
    11.重复数据删除有多快?


    在我们的测试的配备双核处理器和充足 RAM的服务器系统上,其重复数据删除加上贮存的处理速度高达每节点 400 MB/sec,恢复速度为 480 MB/sec。


    SIR 支持多节点集群以提高性能。对于首发的版本,可配置 1、2 或 4 节点集群。在今后的版本中,将增至 8 和 16 节点。
  
    12.SIR 是否可以进行负载平衡?


    可以。集群中的各成员将采用简单的循环 (round-robin) 法自动进行磁带重复数据删除。通过将相等大小的散列值子集分配给每个节点,将实际的数据存储分散到集群。
  
    13.恢复性能是否会受影响?


    不会,从具备 SIR 性能的 VTL 复原与基础 VTL 中的速度一样快。
  
    14.通过 WAN 的恢复性能如何?


    由于只有虚拟索引磁带和唯一数据块需要复制回来,因此使用 SIR 可大幅度提高通过 WAN 的复原性能。
  
    15.高可用性如何?


    SIR 可配置为具有主动/被动故障切换功能的 N+1 集群,以确保节点发生故障时仍具有高可用性。
  
    16.如果需要的存储量超出原来提供给 SIR 的量,怎么办?


    IPStor® 驱动的SIR具备了虚拟化技术,所以可以不间断地随时增加存储空间。
  
    17.存储库应使用什么类型的存储器?


    SIR 以历经验证的 IPStor 技术为基础,所以它与存储器连接类型或供应商无关。选择 FC 还是 SATA 磁盘存储器取决于环境的性能和预算要求。我们建议多数用户使用 FC 连接的阵列。
  
    18.SIR 如何判断数据是否重复?


    SIR 使用众所周知的 SHA-1 散列技术,根据数据内容计算出一个值。随后与已存储的数据散列值进行对比检查。如果存在匹配,我们就有相当的把握,可以确定该数据与已存储的某项内容重复。即便某个块发生很细微的变化,其散列值也会发生巨大变化,因此几乎可以万无一失地判定该数据的散列值是唯一的。SHA-1 散列算法与安全应用程序无关,因此即使SHA-1已经破解,也可以保证数据的安全。
  
    19.不同数据是否会具有相同的散列值?


    是,但与您每天面对的其他风险危险相比,这种可能性微乎其微。即使是 16 PB 数据,这种“散列冲突”的可能性也比磁带或磁盘子系统中硬件故障导致的数据丢失可能性小 100,000 倍。数据量较小时,这种风险将更以指数方式降低。
  
    20.重复数据删除是否只能在单一虚拟磁带上执行?


    不能,无论跨多个磁带还是多个磁带库,都能删除重复数据。事实上,如果将多个具备SIR性能的 VTL 系统复制到一个集中存储库,将跨系统隐删除重复的数据。
  
    21.是否可将一个 SIR 用于多个 VTL?


    是。标准版 SIR 将重复数据删除添加到标准版 VTL 系统,并支持一对 HA 的 VTL。企业版 SIR 将重复数据删除添加到企业版 VTL 环境中,它支持的标准版或企业版 VTL 系统数量不受限制。
  
    22.SIR 是否可对 VTL 之前压缩的虚拟磁带进行重复数据删除?


    可以。SIR 是 VTL 的完全集成的扩展。
  
    23.SIR 数据是否已压缩?


    否,因为这毫无实用价值。当触发重复数据删除的块大小低于特定值时,无论您如何压缩数据,所用的物理存储量都不会减少。
  
    24.如何检索已进行重复数据删除的数据?


    SIR 重复数据删除是 VTL 的扩展,所以数据检索方式不变。对于所有主机软件和备份/恢复应用程序,SIR 重复数据删除都是透明的。
  
    25.重复数据删除是否会导致我的虚拟磁带不再适用于物理磁带?


    重复数据删除不影响虚拟磁带与物理磁带之间的关系。
  
    26.删除虚拟磁带时,是否会从存储库中删除数据?


    如果所删除的磁带是对唯一数据的最后引用,则会删除。如果其他磁带仍需要该数据,则不会。
  
    27.是否可将已进行重复数据删除的数据导出到物理磁带?


    可以。重复数据删除不会更改或删除任何 VTL 功能。
  
    28.SIR 重复数据删除对加密有何影响吗?


    已进行重复数据删除的虚拟索引磁带仍然可以使用加密选项,因为该选项本来就用于原来的虚拟磁带。
  
    29.是否提供测试模式,以便对缩减情况做出评估?


   “测试模式”意味着已安装 SIR。作为替代,我们将为存储架构师及合作伙伴提供一个分析工具,用于整体系统设计过程。这样可根据特定环境的实际数据预计缩减幅度,而不是概括的宣传数据。


    它在数据流外进行离线重复数据删除,可实现存储经济效益,同时不会影响备份窗口。
  
    30.具备SIR性能 的 VTL 有哪些典型优势?


        无需更改数据保护策略、步骤或软件—实现最大资产价值保护
   与 VTL 无缝集成,实现即时、不间断部署
   无需安装代理,将部署复杂性和客户端性能影响降至最低
   在最大程度上消除冗余部分,将资源需求降至最低,成本得到降低
   高效存储,在更长的时间内保留更多在线数据
   异地数据迁移成本更低、时间更短,实现最大程度的灾难恢复
   集中式存储库,便于磁带整合与集中管理
   可识别备份磁带格式,实现重复数据删除的最大效率
   根据数据和备份策略,存储和带宽缩减率达 30 比 1
   N+1 集群,可实现高性能和最短停机时间
   提供套装软件或整体应用解决方案 (Turnkey Appliance) 的形式,供用户部署