英特尔开放平台构建大数据生态圈

大数据无疑是当前最受关注的技术话题,它也与我们每个人都息息相关。随着互联网的快速发展,我们每个人以及社会应用产生的数据已经开始爆发,比如社交、交互式应用带来了大量的网络数据,这种非结构化数据充斥在我们周围,包括网络日志、电话记录、医疗记录、传感器和监控数据等,各种来源的数据种类丰富,规模庞大。

以中国互联网行业为例,庞大的网民每时每刻都在产生大数据,大数据对中国的影响也愈发明显,从中国互联网络信息中心公布的最新数据来看,中国网民的数量已经超过5亿,作为世界上人口最多的国家,中国产生的数据量可想而知。但很多时候,除了堆砌在存储系统中,大数据往往也蕴藏着巨大的商业价值,这一点,一些互联网企业数据挖掘以及商业智能化应用都已经初露端倪,也让更多的企业看到了大数据中潜藏的巨大机会。

不仅仅是互联网行业,放眼全行业,可以利用大数据的机会更多,比如电信运营商利用大数据技术对用户的行为习惯进行分析,就能更有针对性地制订市场营销计划或开发出更多全新的商业模式和服务;金融行业能借该技术更快速地分析在金融机构之间交换的营销与交易数据,以确保交易的安全可靠和防欺诈;智能城市及物联网领域则可借大数据技术更快实现智能交通监控、智能公共安全、气象和污染变化的智能监控及预测等应用。

一方面,大数据的爆发带来了巨大的机遇,另一方面,从繁杂的大数据中挖掘有效信息也将是巨大的挑战,因为长期以来,企业中存储和处理的通常都是结构化数据,对于非结构化数据的处理,此时传统的硬件设备已经开始显得捉襟见肘,无法满足这种庞杂数据带来的应用需求。

大数据对IT解决方案提出更高要求

所谓大数据,首先是数据量很大,已经从TB级跃升至PB级;其次区别于传统的数据结构和类型,数据结构和类型更加复杂,超过80%都是非结构化数据,比如网上的流媒体数据、物联网中RFID感应数据以及社交网络上产生的各种数据等。随着非结构化数据持续不断地增加,并且需要长时间存储,非热点数据也会被随机访问,这种情况与传统的、基于关系型数据库的核心数据存储方式有显著的差异。这种差异使得传统的数据存储和管理解决方案无法胜任大数据时代的分析、管理和挖掘工作。

此外,传统的关系型数据库以及数据分析软件处理的结构化数据通常是GB级别的,很难适应大数据时代TB、PB级复杂数据类型的检索分析。同时,因为数据每时每刻都在快速增长,传统解决方案也无法适应这种近乎无限的扩张性。为了适应大数据时代的到来,企业需要硬件、技术、应用等各个层面做好准备,才能满足大数据收集、存储、管理和分析的要求。

那么,大数据时代下IT解决方案应该具备怎样的要求呢?首先必须支持数量庞大的用户和数据生产者,能够从企业及社区网络、移动智能终端、传感器及物联网、定位及地理信息设备中获得大量的非结构化数据,包括视频、语音、图片、文字等,并对这些海量复杂数据进行分析和挖掘,从而获得真正有价值的数据用于后续的经营。这种应用模式,要求大数据时代的IT解决方案具备可变的数据接口和高效的数据导入、管理、分析、统计技术,在数据规模上能够支持PB级别的数据,在数据类型上支持非结构化以及结构化数据,速度上支持每秒万次级查询,拥有更高的系统可靠性以及更高的统计分析效率。

除了同时支持大规模非结构化和结构化数据,更快速、灵活及稳定的检索分析,低成本的存储和管理能力也必不可少,这无疑对计算能力、数据处理能力和管理能力提出了非常高的要求。在应对大数据处理难题面前,硬件和软件都将发挥自身的价值,因为要实现大数据的高效挖掘和分析,除了高性能、可靠的硬件平台,软件层面的优化支持也必不可少。目前已经有不少厂商在努力围绕大数据开发整合解决方案,英特尔就是其中之一。

从开放平台到大数据生态圈

从目前企业计算领域来看,英特尔架构是承载和实现大数据的理想平台,英特尔架构广泛的普及率可以为企业提供更高的一致性。英特尔至强处理器拥有更高的计算性能和内存数据处理能力,以及其为核心服务器和存储系统提供开放式的扩展性,非常适合应对大数据的挑战。

在实现大数据处理的过程中,基于英特尔至强处理器的平台具备开放式、易优化、灵活易扩展等特点,是实现大数据应用的出色载体。对于数据分析来说,英特尔的双路至强处理器已经通过实践验证了自身在计算能力的领先性,并为基础的主流服务器和存储系统提供无可比拟的扩展性。对于商业智能来说,基于英特尔至强处理器的多路平台则具备高性能、高能效、灵活扩展以及高性价比等优势。

除了基础硬件平台领域,英特尔还具有Hadoop这种分布式运算架构的软件方案,也将对大数据的处理提供更高的效能。我们知道,Hadoop对海量数据处理的支持,可以让用户不再依赖价格高昂的大型专有设备,而是利用较高性价比的x86服务器来搭配并行计算架构,从而以更加经济的方式完成庞大的计算任务。

英特尔Hadoop发行版软件方案通过优化底层算法,可实现更高的应用效率和更均衡的计算存储分布;加上与英特尔硬件技术相结合,可以提供更高的平台性能。同时,还能提供跨数据中心的HBase数据库虚拟大表功能,并实现HBase数据库复制和备份功能,在功能方面也更适应大数据时代管理分析的需要。这一切,都为收集数据、分析数据、优化数据、利用数据提供了坚实的基础,相对来说,就攻克大数据这一IT难题,英特尔已经形成了完整的大数据存储和管理平台。

随着大数据技术、应用和市场发展的逐步深入,关于英特尔在大数据领域扮演的角色,英特尔软件与服务事业部中国区总经理何京翔曾这样说过:“一方面英特尔提供高效的计算芯片、存储、 IO、网络技术,以加速大数据价值挖掘与提高决策反应,同时提供最优的软件和工具,以推动大数据应用部署与创新;另一方面,英特尔将促进大数据生态系统建设,与广泛的合作伙伴合作,并且进一步持续投资大数据解决方案的研究与服务。”

作为上游的芯片厂商,英特尔深知大数据时代唯有合作方能共赢的道理。在PC产业中,英特尔具备多年的生态系统构建经验,并以实际的市场表现证明了这一点。在产业链中,英特尔深入到 OEM厂商、ISV、SI甚至用户身边去,将产业链上的每一节点都紧紧扣在生态系统周围,目前,这个生态系统正呈现出蓬勃发展的态势。

凭借自身在大数据分析方面的领先地位,英特尔还致力于帮助企业用户或机构更好地了解自身,以及如何利用大数据分析来更快速地制定决策和解决复杂问题。英特尔分布式分析愿景就提供了一种创新途径,来帮助企业从无处不在的数据中获得出色价值。

在与各行业组织、生态系统的合作上,英特尔也十分活跃,并与合作伙伴来共同挖掘对大数据分析的需求与潜力。在电信、石油、交通、医疗以及制造业大数据特征明显的行业,英特尔也将其生态系统上每一节点的力量发挥到极致。

很多人知道英特尔已经成立了软件部门,这个部门将与英特尔研究院、数据中心部门一起合作,来共同研发大数据平台和工具。在未来,除了继续提供现有产品来支撑大数据IT基础设施,英特尔还将针对大数据整体应用架构进行创新规划,通过自身和合作伙伴的努力来共同把握时代机遇,深挖大数据价值,推动整个大数据产业的发展,打造更加完善的大数据生态圈。