存储的选择对大数据能否成功很重要

如今,大数据正在成为众多企业单位的重要的工具,而随着数据本身的加速增长,用户们所部属的存储和数据管理发难变得越来越重要。而由于用户面临的各种挑战,比如实施分析工具和掌控大型数据文件等,它们也需要找到更为适合的存储方案。

使用元数据和政策管理

政策管理是另一个很重要的功能,即使是用元数据来实施或驱动一些功能。这也给非结构化数据带来了一定的灵活的结构,同时剔除了与结构化数据管理相关的限制或约束。

找到合适的媒介

找到合适的存储媒介能够帮助用户满足它的需求。硬盘驱动器(HDD)长期以来是流行的方式来为许多应用提供均衡的性能、容量、存储密度和成本效率。而随着用户需要在更长的时间内保存更多的数据,这个趋势将继续。

大数据还可以得益于如今的使用动态随机访问记忆体或NAND闪存记忆体–或两者结合–来支持带宽需求的固态驱动器解决方案。SSD可以被用于存储元数据和其他经常被访问的数据。而曾经的“元老”—磁带也将在大数据中扮演几种角色,这些角色包括定时地将大量数据迁移,提供归档或为磁盘上的数据提供备份。

降低大数据的资源占用

重复数据删除并不总是最大化大数据容量的有效方式。用户可以考虑其他工具、技术来缓解由于存储和保护不断增长的数据集而带来的压力。

重新思考如何、何时、何地以及为何数据要被保护是另一个降低数据占用的方法。数据压缩(实时的或异步的),用不同的压缩算法来降低存储需求也是减少数据占用的技术之一。

考虑存储系统选项

一些用于分析工具的大数据解决方案采用集群或网格的配置内部或专用存储以及应用程序软件的行业标准x86或ia64服务器。大数据应用程序还可以利用现有的针对不同使用情境进行优化的存储系统。一些用于传统的高性能计算的存储系统可能适合于使用块或文件访问方式的带宽密集型并发或并行访问应用程序。

保护和服务于大数据

保护大数据要求基本的可靠性、可用性和可服务性。用户还必须确保数据的完整性和耐用性,执行后端数据检查来探测校验码或保护错误和比特损坏等意外情况。这些后端检查必须对正常运行的操作是透明的,而且必须在它们发展成问题之前纠正这些情况。

用户须重新检查RAID(独立磁盘冗余阵列)水平以优化他们的大数据存储解决方案。需要考虑得因素包括有多少驱动器在RAID池或组中,数据块或I/O大小,以及正在使用的设备的大小和类型,哪些可以进行优化以便适应更小量的数据。