Informatica提供Hadoop数据编译器HParser

 

(2011年11月6日 北京)全球领先的企业数据集成软件独立供应商Informatica(纳斯达克代码:INFA)日前正式发布了业界第一款Hadoop环境下的数据编译转换解决方案——Informatica HParser。该方案可以运行在几乎所有的Apache Hadoop分布式环境中,与MapReduce架构平行,能高效率地把无结构的复杂数据——诸如网络记录、社交媒体数据、通话详细记录以及其他数据格式——转换为Hadoop中结构或半结构格式。当把数据转化为更具结构性的格式后,便可以得到更快速的使用和生效,从而驱动业务发展、提高运营效率。

Informatica HParser提供了两种版本,一是免费的开放社区版本,另一是商业版本,旨在帮助企业用户从复杂、无结构的数据中提炼商业价值。其中,商业版本又分为HParser for Logs, Omniture, XML and JSON 和HParser for Industry Standards and Documents,它们都提供30天免费试用期。Informatica HParser在Hadoop环境中强大的数据编译功能,使企业用户能把生产力、生产效率和可扩展性提升到新的高度。企业用户采用Informatica HParser作为Hadoop数据编译标准,可以提高现有IT投资的价值。利用Informatica HParser这一覆盖了大范围数据格式、基于引擎的解决方案,用户能大大简化并加快数据分析过程,有效避免处理过程中的风险并削减定制编译脚本的成本。

Informatica HParser的独特优势包括:

快速、可视化的开发——用于创建和维护转换的HParser可视化集成开发环境(IDE)可以加速开发过程,并提高开发者生产力。HParser还将开发中的多层次及关系转化为更为扁平、易于使用的格式,并允许业务规则进行确认。

单一引擎覆盖广泛的数据格式——HParser的转换模块也称为库,目前已使用就绪,覆盖了大部分通用及业界专用的数据格式,支持XML和JSON,还支持金融行业的SWIFT、X12、NACHA,医疗行业的HL7和HIPAA以及电信的行业的ASN.1,以及营销数据。

支持设备生成记录——HParser简化了设备或机器生成内容的编译过程,包括属性记录文件,类如Apache weblog以及Omniture log。

与MapReduce平行运行——HParser通过内嵌于MapReduce并平行运行的特征,提高了复杂数据大文件的优化编译效果。

采用大规模项目中的最佳实践——利用HParser,开发者可以创建MapReduce中的应用逻辑及数据源之间的抽象层。该特性允许应用逻辑一经创建便可实施在多种不同数据源中,这样可以允许项目便捷地延展。利用相同的集成开发环境,设计组件可以拓展到企业的其他部分,而不仅仅限于Hadoop项目。

Gartner研究副总裁Merv Adrian认为:“到2014年,采用支持新型复杂数据及大规模数据分析的企业,将比其他同类企业在几乎所有标准化的财务表现分析中领先20个百分点。这种将各类无结构和多结构数据编译为可以被容易地进行分析和处理的数据格式的能力,是开发包括Hadoop在内的具有一致信息基础架构的基础,以应对大数据的挑战。对于一个以数据为中心的企业而言,找到一种能从使用XML和JSON等标准的各类内容中提取信息的通用方式相当重要,因为这样可以在整个企业范围内进行数据分享和交换。”

Cognizant公司大数据卓越中心主任Tom Kersnick认为:“市场对获取大数据全部商业潜能的需求很旺盛,这种需求促进Cognizant创建了大数据卓越中心,而Hadoop正是我们中心的战略增长驱动器。在我们与Informatica的合作中,我们对HParser进行了多种测试,HParser显示出了把复杂的分层文件转化为扁平化数据的强大能力,而整个平行编译过程都是在易于使用的图形化用户界面中完成的。随着我们在大数据方面的拓展,这种Hadoop环境中具有延展性且高效率的数据编译模式对我们提高技能、为快速增长的客户提供出色服务非常重要。”

Informatica公司高级副总裁、B2B数据交换及云数据集成总经理Juan Carlos Soto表示:“Informatica HParser是Informatica B2B Data Exchange家族产品及Informatica平台的最新补充,旨在满足从海量无结构数据中提取商业价值的日益增长的需求。HParser把我们在Hadoop上的最新创新成果、在编译无结构数据方面以及处理业界标准格式的经验完美地结合起来。在我们的线路图中,Informatica HParser是帮助企业利用大数据的重要里程碑,旨在帮助企业用户最大化其数据投资回报。”