非结构化数据的购房(cun chu)选型要点

从前,企业衡量其市值通常看企业规模大小,员工人数,专利数量,拥有的软硬件设备,技术能力等。当我们进入大数据时代,随着数字化转型的脚步推进,数据资产在企业资产中所占比重逐渐增大。

海量的结构化数据和非结构化数据奔涌而来,结构化数据有关系型数据库上下打点,进行系统化存储和管理,而非结构化数据的存储则略显鸡肋。最初依托本地存储空间搭建文件系统,可扩展性靠增加DAS硬盘数量以及多副本的容错,成本不低还操作繁复,时常陷入存而无所用,用而不得法的窘境。

据IDC预测,到2023年,国内数据量将达到40ZB,其中超过80%的数据为非结构化数据。非结构化数据的未来增量与价值更是不可预估,这也迫使我们将非结构化数据存储列入企业战略当中,对非结构化数据“购(cun)房(chu)”选型思虑周全。

非结构化数据如何存(gou)储(fang)选型?

购房要看地段,看预算,看均价,看品质等等,非结构化数据存储和买现房一样也要看选型,本身体量大,从前选择经济适用型为佳,现在数据存储与生产价值密切关联,“开发商”要做到服务至上才是重点。

为了助力企业实现非结构化数据价值最大化,戴尔科技集团推出UDS非结构化数据解决方案,包含NAS存储PowerScale和对象存储ECS两个系列,分别适用于基于文件和云原生对象的数据湖和应用,是专为非结构化数据而生的数据购(cun)房(chu)解决方案。

特色服务1:PowerScale能够实现有效扩容和性能提升

PowerScale集成了业界领先的横向扩展文件系统OneFS和可靠的服务器平台PowerEdge,支持广泛的文件工作负载和文件传输协议,有效简化存储基础架构,消除存储孤岛、统一管理所有非结构化数据、存储PB级文件数据并可以对其进行分析。单一集群中可达252个节点,且能够实现分钟级的容量扩展和性能线性增长,满足企业特定业务需求。

怎么做的呢?举个栗子,传统的DAS直连存储采用存算一体式的架构,当需要容量扩容时,由于存储与计算资源是绑定在一起的,我们不得不购买相当数量的计算节点,最终造成大量计算资源和投资浪费。

PowerScale不同,它提供分离的存储能力,帮助用户实现“存算分离”,在它参与的系统中,计算节点和存储节点分别独立,存储不够扩存储、计算不够扩计算,既具备高扩展性,又能够提升计算与存储资源利用率,让算力随着工作负载的动态发展实现最佳性能平衡,有效提高投资回报效率,降低管理运维难度,加速大数据分析时间,帮助用户发掘大数据背后隐藏的价值。

当前PowerScale发布的最新产品是全闪平台F900,配置dual-socket的cascade lake处理器,全NVMe闪存,并支持NVIDIA GPUDirect,单一集群可轻松扩展93PB,助力企业处理最具挑战的数据密集型的工作负载。

今年9月份,戴尔科技把OneFS升级到了9.3版本。升级的新版本通过更有效的数据缩减功能,对海量的文件数据通过多种方式的数据缩减,进一步明显提升PowerScale的存储效率,进一步提升用户的投资回报效率。

特色服务2:PowerScale通过Cloudera CDP(云数据平台)认证

非结构化数据存储的价值往往与大数据分析伴生,我们希望产生的数据能及时用于生产环境和数据分析,这就需要打通传统的数据存储与大数据分析平台。

今年4月份,戴尔科技宣布其PowerScale成功获得Cloudera CDP(云数据平台)最严苛的QATS认证,意味着PowerScale+Cloudera CDP强强联合,用户可使用PowerScale进行就地数据分析,无需数据迁移,操作更高效,让数据分析更快得到结果。

特色服务3:提供针对PowerScale的Superna数据保护解决方案

随着勒索软件等网络安全事件频发,数据安全被大家越来越重视,结构化和非结构化数据保护,戴尔科技都推出了完善的解决方案,针对非结构化数据的完善数据安全解决方案——Superna网络保护和恢复解决方案,旨在帮助企业面对勒索软件攻击进行全面预防、保护和快速恢复。

与数据避风港类似,全新的Superna AirGap Enterprise设置了air gap(空气闸口)功能进行数据同步和检测,确保数据安全可靠。还提供包括Superna容灾管理、智能审计、搜索恢复、监控功能等特性也进一步扩展PowerScale的管理和控制能力。

这款解决方案分为两种部署方式,企业可以选择在某一个主要集群上部署Superna AirGap,还可以部署在与主机完全隔离的安全保险库(CR Vault)上,后者相对具有更高的可扩展性和安全性。

特色服务4:面向企业现代化工作负载的对象存储平台ECS

企业级对象存储ECS适用于云原生应用。支持EB级容量扩展并且全球可用。用于公有云级别存储非结构化数据,同时提供私有云的可靠性和可控性。并且提供S3兼容性,让企业能够支持大规模的企业工作负载,例如云原生、归档、物联网、AI 以及大数据分析应用等。目前借助ECS构建对象存储云,企业可将总拥有成本降低多达59.5%。

目前,ECS已经更新到了第三代EX系列,包括EX300、EX500、EX3000和全闪存EXF900。以EX系列最新产品EXF900为例,搭载基于NVMe的SSD,单节点支持12-24个硬盘,每个机架从230TB起可扩容至多PB级,是面向企业现代化工作负载的理想选择。

您的邻居:基因测序与分析平台案例分享

安诺优达是一家成立于2012年的中国基因科技公司,致力于构建一个先进的基因测序与分析平台,提升高通量测序效率和高性能计算能力,推动生殖生育、肿瘤诊疗、生命科学等研究和业务的快速发展。

在推进研究和业务的过程中,安诺优达选择与戴尔科技联合构建基因测序与分析平台,期间引入PowerScale系列的数据湖解决方案,打造了专门面向国人的基因组数据库(Annoroad Typical Chinese Genomes),利用ATCG数据库过滤变异位点,安诺优达可以深入挖掘中国人群特有的可靠变异,揭示中国人群遗传突变规律,为多种类型疾病的研究提供重要依据。

在此次面临的新冠疫情中,安诺优达的一项重要工作就是追踪病毒的发展,掌握病毒的变异情况。基于戴尔科技强大的计算能力和数据存储平台让安诺优达的科研人员能够快速比对与病毒相关的2200万个序列和32亿个碱基,通过分析病毒库数据和病毒的代际关系及时甄别和锁定病毒。为新冠疫情的控制做出了巨大的贡献。

总结

在AI、5G、云计算等新技术的催化下,非结构化数据量急速增长,如何利用这些海量数据加以分析利用,提升企业效率,获取有效价值将成为企业的一个重要议题。戴尔科技与数据分析平台Cloudera合作只是一个开端,相信未来其将以PowerScale和ECS为联接平台,不断优化特色的“购房”服务,延展联合更多相关平台工具,助力企业创新发展!