海量数据的时代正在到来,在这种环境下,需要有新的技术手段来应对大数据带来的挑战,并充分挖掘其潜在价值,实现业务的进一步发展和保持企业的竞争优势。作为半导体领导厂商,英特尔拥有完整的涵盖软硬件平台的大数据解决方案。
根据IDC预测,全球的数据使用量到2020将将会增长44倍,达到35.2ZB(1ZB=10亿TB)。Facebook、Twitter、微博等各种社交平台的海量数据,以及视频通讯、医疗影像、地理信息和监控录像等视频内容也会极具增加,加之传感器、RFID阅读器、导航终端等非传统IT设备和移动设备,都将产生越来越多的数据。增加的这些数据当中,有80%的数据属于非结构化。
面对这些巨变,传统的IT技术并不足以应对这种新挑战,传统的关系型数据库以及桌面BI分析软件处理的结构化数据,其容量一般都在GB级别,无法从更大的数据集中发现有意义的信息。另外,需要处理的目标数据也一直在增长,传统技术无法适应这种扩展性。
那么,究竟什么样的技术和解决方案才能胜任这种挑战呢,我们认为,适合大数据时代需求的解决方案,一般要具备以下条件:
支持PB级别数据的处理和分析
支持结构和非结构化数据
支持万级每秒数据查询
支持高可靠性系统
支持高频率统计分析
也就是说,对于大量的结构化和非结构化数据,支持可变的数据结构和高效的数据导入、查询、统计分析。作为引领服务器发展方向的英特尔来说,目前它拥有在Apache开源版基础上修订的发行版和免费版两个Hadoop版本,并在GitHub维护着Project Panthera开源项目,其中包括即时分析、基于HBase的文档存储、基于Hive/MapReduce的分析SQL引擎、HiBench和 HiTune等子项目。
英特尔Hadoop发行版组成
为何谈大数据的时候我们要重点谈Hadoop呢?因为Hadoop是目前为止大数据解决方案的主流平台,也是顺应未来大数据和云计算环境的平台。接下来,我们将为大家介绍英特尔发行版Hadoop在应对大数据挑战方面的独特优势。
相比其他版本的Hadoop,英特尔Hadoop发行版有何优势呢?众所周知,英特尔在开放服务器领域有着丰富而又完整的解决方案,在云计算、数据中心领域积累了大量实践经验。而Hadoop无疑是云计算领域中最炙手可热的技术,也是商业价值最突出的大数据处理平台。英特尔结合自己的硬件技术和成熟经验,打造面向大数据应用的Hadoop平台,有助于提供相比其他Hadoop平台更可靠、更高性能、更多和更易于管理的大数据解决方案:
更高性能
基于Hadoop底层的大量优化算法,使应用效率更高、计算存储分布更均衡。系统安装程序计算得出的参数配置,适合目前主流平台的大多数应用情况。而且,它与硬件技术深度结合,可帮助提高平台性能,实现软硬一体的大数据高效率解决方案。
更可靠
全面测试的企业级发行版,保证长期稳定运行。集成最新开源的和自行开发的补丁,用户可以及时修正漏洞。保证各个部件之间的一致性,使应用顺滑运行。
更易于管理
提供独有的基于浏览器的集群安装和管理界面,解决开源版本管理困难的问题。提供网页、邮件方式的系统异常报警。
更多功能
提供跨数据中心的HBase数据库虚拟大表功能。实现HBase数据库复制和备份功能。其他针对企业用户需要的增强功能。
英特尔Hadoop发行版与开源版本功能对比
目前,英特尔发行版Hadoop在电信、视频监控、生产制造等行业都有广泛应用。另外,去年英特尔推出发行版Hadoop的免费版。免费版本除了在支持的节点数量和存储容量上和发行版不同外,其核心代码和核心功能都相同。它有助于让更多的用户试用和体验Hadoop在大数据处理上的性能和优势,降低大数据应用的门槛。从而将大数据Hadoop解决方案惠及更多用户。