IBM公司近日宣布推出基于Apache Spark(一种开源的分析框架)的新型z/OS平台,以帮助企业使用IBM大型主机更加方便、快捷地访问和分析数据。
新的操作系统平台可以帮助数据科学家打通分析库和底层文件系统之间的联系,无需进行提取、转换和加载(ETL)即可对数据实现就地分析。
在认知时代,数据作为一种新的自然资源能够被计算机系统所理解、推理和学习,但企业必须在数据价值有效期内对其进行分析,形成洞察并予以应用。新的z/OS平台配有来自业务合作伙伴的加速器,可以帮助企业更便利地利用大型主机的数据和能力,来了解市场变化和客户的个性化需求,从而对业务及时进行调整,更快实现价值。
IBM大型主机被全球各大银行、保险公司、零售商和运输公司广泛用于关键数据处理和交易。它拥有业界最快的商用微处理器,以及内置的交易分析功能,可以在不超过2毫秒的时间内为某项交易的预测模型评分。目前,企业可以利用这些功能,在无需从主机中下载数据(without moving data off the mainframe)的条件下通过Spark来进行高级内存中分析,既节省时间和成本,又降低风险。
基于Apache Spark推出的IBM z/OS平台具备Apache Spark core、Spark SQL、Spark Streaming、Machine Learning Library (MLlib)和Graphx等开源功能,可提供业内唯一的主机常驻Spark数据提取解决方案。新的平台帮助企业通过以下途径更加高效、安全地获取信息:
简化开发——开发人员和数据科学家可利用他们已有的Scala、Python、R和SQL等编程经验来更快实现可用洞察的价值。
简化数据访问——经过优化的数据抽象化服务消除了复杂性,通过Apache Spark API使用熟悉的工具对IMS、VSAM、DB2 z/OS、PDSE或SMF等传统格式实现企业数据的无缝访问。
就地数据分析(In-place data analytics)——Apache Spark使用内存计算来处理数据,可以快速产生结果。新平台具备数据抽象和集成服务功能,可以让z/OS分析应用程序利用标准Spark API。这可以让企业就地分析数据,避免产生提取、转换和加载相关的高额处理和安全性问题。
开源功能——新平台提供了一个应用于Apache Spark、专门针对大数据设计的开源内存计算引擎。
IBM也在与DataFactZ、Rocket Software和Zementis这三家公司进行合作,通过IBM z/OS平台为Apache Spark开发定制解决方案,让那些从不同来源采集数据的数据科学家和数据管理员用自己喜欢的格式和工具来收集和分析数据。
IBM去年发布了一项 针对Spark的承诺,将投入3500名IBM研究人员和开发人员参与与Spark相关的项目。为了推进支持大型主机分析的开源技术,大型主机还成了一个新的GitHub组织,以便开发人员协作建立针对Spark的z/OS工具。比如,Project Jupyter和任一NoSQL数据库的组合都能提供灵活、可扩展的数据处理和分析解决方案。
使用z/OS的开发人员现在已经可以下载基于Apache Spark的IBM z/OS平台。