“希望是本无所谓有,无所谓无的。这正如地上的路;其实地上本没有路,走的人多了,也便成了路。” 这是鲁迅先生1921年在短篇小说《故乡》中的一段话。
鲁迅先生用这段话表达对儿时伙伴闰土从幼年到成年之变化的感叹,揭露了封建传统观念对人精神的束缚、扭曲,所造成人与人之间的冷漠、隔膜,表达了对现实的强烈不满,以及改造旧社会、创造新生活的强烈愿望。
大数据技术应用也是如此。
没有停歇的大数据脚步
大数据一度被寄予厚望,它借助全量数据分析,似乎让人找到了破解困扰人类难题的希望。但从实际的结果看:大数据表现远远落后于人类的期望,问题何在?是大数据技术言过其实吗?
有舆论认为:“成也萧何,败也萧何,Hadoop复杂性制约了大数据推广应用。”但是先行者并没有停下探索的脚步,尽管没有“破解癌症”类的爆点,但行业应用并不缺乏经典的成功案例。
金融行业的 “千人千面”;医疗行业的 “疫情精准防护”;电力行业的输电网络、配电网络、以及用电负荷等电力调度模型;以及交通行业的 “平安交通”、“交通运输应急处置和调度指挥”、“交通运输信用舆情检测”等大数据经典应用让我津津乐道,但也让我好奇:他们是如何做到的呢?又是如何跨越Hadoop、数据建模带来的技术复杂性的呢?
仔细研究大数据产业生态,我渐渐也想明白了:大数据不仅是HDFS、MapReduce、数据建模,而是涵盖了Web管理界面、集群供应/管理/监控、数据传递/迁移、数据分析、机器学习以及流式数据处理等数据应用场景的大大小小26个模块化工具,它们都是大数据技术。
一句话,对于大数据的认知要与时俱进,否则就赶不上技术发展的步伐了!Hive、HBase都是大数据,在很多行业得到了普遍应用。有数据显示:全球大数据平台市场规模持续增长,市场规模高达4813.6亿元。
数据安全成为成长中的烦恼
大数据产业茁壮成行,以Hive、HBase等为基础,“千人千面”、“疫情精准防护”等已经成为行业不可或缺的应用,其重要性不言而喻,也因为如此,业务系统的可靠性和稳定性问题就变得格外突出,业务连续性日益得到用户关注。
大数据平台保护对于确保业务连续性至关重要。
不同于传统的数据保护备份,大数据平台保护面临着 “数多无策”的问题。针对于PB级大数据,有限备份窗口让传统备份手段面临挑战;此外,长时间保留海量的备份副本,也让企业数据存储成本不堪重负;备份数据的安全存储与合规等都面临问题,需要新一代备份方案加以解决。
爱数AnyBackup研发副总裁邓平指出:“大数据应用重要性不断提升,作为核心业务应用的承载平台,大数据平台保护就变得愈加重要。”
针对HDFS、Hive、HBase等大数据平台组件的保护需求,爱数AnyBackup提供表粒度、数据一致性的数据备份,以及多并发的数据恢复,全面满足了大数据平台保护的需要。
爱数AnyBackup又是怎么解决备份窗口不足以及数据副本存储成本的难题呢?
据邓平透露:借助永久增量、重删技术,爱数AnyBackup方案能够提升96倍以上备份效率,节省存储资源达90%;针对勒索病毒,爱数AnyBackup利用不可变存储技术,实现备份数据防篡改,为业务系统数据安全再加一把锁,将勒索病毒拒之门外。
针对本地备份/异地容灾、以及两地三中心灾备等更高级别的数据安全保护需求,爱数AnyBackup也提供针对性的解决方案。
需要特别指出的是:针对HDFS、Hive、HBase等应用场景的不同特点,如Hive架构中,元数据与存储分离,如何确保备份数据的一致性?再例如,HBase数据变化频繁,对增量数据备份要求比较高,这都要求AnyBackup能够应对,而AnyBackup也确实做到。
备份并不难理解,但是针对大数据平台保护做到表颗粒度的数据保护、不同格式Metastore数据兼容,以及在线备份、灵活的架构部署,这都离不开对HDFS、Hive、HBase等技术的深度把握,没有技术作为保障,就只好“望洋兴叹”了。
在我看来,爱数AnyBackup与大数据平台的情缘,也是大数据技术茁壮成长的见证。如果大数据应用仅仅限于探索和尝试,未必需要备份;大数据业务不可或缺,则备份必然成为必选项,爱数AnyBackup在技术上的优势,让其如鱼得水!
小结
因为重要所以备受重视。大数据应用的水平提升,使得其业务重要性不断增强,如今“个性化推荐”、“千人千面”等行业应用已经不可或缺,也因为如此,大数据平台保护应该提到议事日程上来。
大数据与数据保护结缘,将开启数据应用新时代!