挑战
身处移动互联网和大数据时代,数据是人们非常重要的资产,从企业角度来说更是如此。但如何把数据真正变为对企业有用的信息和洞察,从而能够为企业创造价值,是每个企业所面临的严峻挑战和重大机遇。
一般而言,企业管理会采用企业数据仓库(Enterprise Data Warehouse, EDW)类的平台,将运营商的计费、运营数据,或者是银行的电子交易等核心数据上传至企业的数据仓库,然后通过EDW来制作各类报表。
实际上,上述结构化、交易型数据仅仅是企业数据的一部分,更多的是非结构化数据,如电子邮件、知识管理、视频信息或者呼叫中心的语音信息等。如果非结构化或半结构化数据无法实际加载到企业数据仓库中,或者即使上传了但无法加以分析和处理,那么企业就错失了把对数据进行完整分析和兑现价值的机会。
对策
惠普公司针对大数据平台的解决方案特点是“全数据和实时分析”,即不仅可以处理结构化数据及非结构化数据,还可以在企业数据仓库里进行储存和分析,做进一步洞察,实现多重目标:如根据运维数据,预估生产部件发生故障的时间,更好地管理布置备品、备件;或者通过历史购买行为,预测用户下一步购买需求,快速地将用户希望购买的产品递送到位,还可以将所有数据做进一步复合分析应用,有针对性地进行危险排查,构建下一代数据库。如智能制造行业能够通过生产线数据的实时分析提升良品率和生产效率,降低生产成本。
1.整体解决方案
惠普发布的HP Haven分析平台就是这样的一个大数据解决方案。
Haven由惠普收购的几大产品组合而成,包括善于处理非结构化数据、语义分析的Autonomy,实时分析超大数据集的Vertica引擎,以及可以采集和利用所有机器数据等半结构化的Arcsigh。该平台还包括Hadoop解决方案。
HP Haven既可以部署在传统的数据中心,也可以部署在大型企业的私有云、中小企业的公有云以及基础数据所在的Hadoop架构上。
HP Haven共有三个核心组件。
一是HP IDOL,用于处理非结构化和半结构化数据;
二是HP Vertica,作为一个大规模并发处理的数据库,主要负责处理结构化数据,可以实时处理数百TB甚至若干PB级海量数据;
三是称为“分布式R”的开发工具,主要应用于建模。传统R适于在小机器上做建模分析,一旦数据量庞大,就会出现性能瓶颈。通过创新性的分布式R,可以支持超大规模数据的预测性分析,另外可以采用基础架构集群,提升建模和运行的效率。
这三个核心组件的智能接口连接企业内部所有基于HP Haven OnDemand平台存储的公有云、私有云数据,利用HP Haven构建复合分析应用,将数据变成对企业有用的信息。
作为业界最快速的大数据分析平台之一,HP Haven是针对海量的大数据的应用场景所设计的产品,从诞生的那一天起,就是一个开放的、可扩展、易应用、高稳定性的架构。
2.面向不同规模的企业应用
针对客户规模的需求不同,HP Haven大数据平台提供了相应实现方式。
一是针对大型企业推出HP Haven Enterprise,即HP Haven企业级平台,其组件包括IDOL、Vertica和分布式R,可以和云基础架构相结合实现复杂应用分析,在处理能力、安全性、可维护性等方面都具有非常好的性能。
二是从云上提供Haven On Hadoop,适用于对数据量要求不大、对预测分析建模性能要求没有实时性要求的中小企业。同时,可以借助HP Vertica在Hadoop上查询,既利用了Hadoop的拓展性与成本优势,同时也使开发者采用熟悉的SQL语言,实现更优质更快速的应用开发。自然,Haven On Hadoop对较为主流的Hadoop厂家如MapR、Hortonworks和Cloudera等提供本地化支持。
三是云上Haven OnDemand,也就是将HP Haven大数据平台部署在亚马逊、Azure等公有云平台上,更多的是以免费的形式提供服务。对于开发者或者中小企业而言,Haven就是一个SaaS平台,把自身数据上传到云中,通过API和编程接口来使用 Haven所具有的快速搜索、查询和人脸识别等功能,迅速构建适合所在企业分级查询的应用。
在应用方面,纽约基因组中心借助HP Haven平台快速发现基因差别,探寻出基因跟药物诊疗之间的关系,从而提高诊疗效率。零售、游戏、医疗等行业全球领先的企业应用Haven平台开发出为数不少的解决方案,也得到了包括拥有全球最大实时数据分析量的Facebook等社交网站的欢迎。
惠普正在紧锣密鼓地与合作伙伴探讨在国内部署的可行性,希望通过这样一个简单快速、可以访问的特性,帮助开发者或者中小企业无需大量投资就能快速构建应用。那些初创公司都拥有很好的创意,但前期可能缺乏资本投入,Haven社区版为他们提供了免费的软硬件和云端环境,加速他们创业成功的进程。而在Haven OnDemand上孵化的商业应用最终被验证为一个成功的商业模式后,就会迁移到HP Haven Enterprise平台上。
9月14日,惠普推出一系列新产品、服务和计划,旨在帮助企业利用数据和分析来开发新产品,提供用户体验、并帮助企业更高效地运行,在竞争中实现差异化;9月22日,中国惠普有限公司中国区副总裁、软件集团总经理李时与惠普软件集团中国区大数据平台总经理石建强在北京向媒体介绍了此次发布的详细内容。
中国惠普有限公司中国区副总裁、软件集团总经理李时:此次发布的内容进一步加快了惠普差异化的大数据战略——围绕帮助企业管理包括物联网设备数据等新型数据在内的各种类型的数据,利用重要的新型开源项目,以及向开发者和初创公司提供各种工具,帮助企业成为成功的数据驱动型企业。
3.HP Haven核心组件Vertica的升级版
HP Vertica是HP Haven的核心组件。其首个版本以A开头,新版代号“Excavator”,意味着新产品迄今已经走过了四代。
作为业内最快的SQL数据库工具,HP Vertica新版本Excavator主要有以下几个方面的功能:
一是支持数据流的分析,Excavator提供Apache Kafka开源分布式消息系统的本地支持,不仅实现Vertica和Spark之间更快速的数据传输,还可快速获取、存储和近乎实时分析来自诸如制造流程控制、供应链优化、医疗监测、财务风险管理和欺诈检测等业务的每秒钟、每分钟产生若干GB甚至是TB级的数据,而延迟缩减至3秒到数毫秒内。此举顺应了物联网应用的需求。
二是帮助企业收集系统和业务应用生成的大型日志文件并进行索引,帮助IT部门快速发现和预测应用故障和网络攻击,并调查授权和未经授权的访问。
三是提供SQL on Hadoop 本地文件支持。以往需要MapReduce这一相对复杂的编程方式来存储数据,新版本的 Vertica可以通过标准的SQL语言,直接在ORC文件上运行,执行速度提高了五倍。
四是向全球开发者社区开放了Flex Table “按需模式”技术的源代码。如此一来,企业将能够全面利用几乎任何形式的半结构化数据以满足自己独特的需求。
Vertica在国外得到了广泛的应用,以智能城市建设为例,新西兰奥克兰交通局采用HPVertica解决方案方案,通过实时捕捉和视频分析,自动为超时或者违法停放的机动车自动开具罚单,保证城市道路的通畅;通过视频对相应模板的分析,比如在路口违章、路口非法变道,对车辆号牌的分析和车辆车型的识别,寻找号牌和车型的匹配,发现套牌与违法违规行为快速识别、及时报警。UBer通过HP Vertica地理信息系统识别功能,能够在划定的区域快速分析特定需求,更好地规划车辆的调度,优化城市交通。
惠普软件集团中国区大数据平台总经理石建强:新版HP Vertica提供强大的全新流和高速分析功能,为企业拥抱大数据开源带来突破性进步。
4. Haven生态系统的建设
创建基于Haven平台的系统集成商(SI)、独立软件开发商(ISV)等合作伙伴的生态系统,是目前国内非常重要的战略举措。Haven在金融、电信、零售等国内重要的领域有很多成功的合作案例,其中大部分应用都是联合合作伙伴去部署和实施的。
HP Haven是一个中间件式的大数据平台,一个好的开发者生态系统对于 Haven平台的成功将是非常重要的因素。惠普提供了开发者扶持和初创企业扶持计划:
一是面向开发者提供了完全免费的Haven社区版,下载后可直接做应用原型开发,应用商品化之后再升级采用企业版。
二是推出了初创公司加速计划,帮助创业公司在HP Haven平台上快速地开发和部署其优秀的应用和创新性产品。
上述内容同样是9月14日的发布重点。此前惠普通过设立开发者论坛,为所有基于 Haven的大数据开发者一个沟通、分享和交流的平台,通过思想碰撞来孵化出更多、更好的创新,加速想法变为产品的过程,同时创建新的商业模式。
李时把开发者称为创意经济时代的新英雄:“对于在这个新时代帮助企业和开发者取得成功,惠普具有得天独厚的优势。通过惠普的Haven和Haven OnDemand平台,帮助这些开发者通过数据实现业务转型,并使得他们能够充分利用各种信息的价值,快速连接和使用开源,快速获得打造成功业务所需的工具。”
虽然开发者社区设在美国,但全球爱好者都可以下载喜欢的开发工具与应用,已经有相当数量来自中国,中国的社区版也很快会发布中文版。惠普正在与合作伙伴在国内运行大数据 Haven开发者社区。三个月前在北京和上海举办过一次黑客马拉松活动,在清华大学与国内著名的开发者论坛——小象论坛组织过多次分享交流会。
产品上市
新的HP Haven大数据产品和服务将于年末上市。