三个月前,数据分析解决方案供应商Teradata天睿公司一口气推出全面的数据分析解决方案和专业咨询服务,包括Teradata Everywhere、Teradata无边界分析,以及敏捷型分析业务咨询服务(RACE)等。
对于Teradata的客户而言,这或许期待已久。数年来,Teradata在拥抱云的道路上走得很坚决,Teradata Everywhere和无边界分析让Teradata在云端得以真正漫步;与此同时,Teradata继续加强在数据仓库一体机领域的投入,维持既有优势。
显然,Teradata加速了云的步伐,但要正确理解和把握Teradata的变化,需要从Teradata统一数据架构(即Teradata Unified Data Architecture,UDA)切入。
近日,Teradata天睿公司大中华区解决方案总监姜欣向记者展示了最新的UDA全景图,从而为了解Teradata和把握企业大数据分析提供了参考。
印象中,Teradata天睿公司先后发布过不同版本的统一数据架构,显然,最新的UDA最全面地诠释了企业大数据分析支撑能力的要素。
当前,企业尤其是大中型企业,要真正建立大数据分析能力,前提是支撑能力的建设。何为支撑能力?这包括数据采集、储存、计算到分析等各个方面。毋庸置疑,这个支撑能力建设的过程,没有任何一家企业能一蹴而就。
UDA的价值,一方面表达了该领域主流供应商对于企业大数据分析支撑能力的专业视角,这个视角也没有局限于自身的解决方案;另一方面,UDA所隐含的方法论,在目前大数据应用探索阶段具有普适性,从而具有参考价值。
既是Teradata统一数据架构,也是大数据分析路线图
上图是Teradata最新的统一数据架构的全景图的板块划分,它从数据架构层面,从技术层面来支撑起“感知型企业”的五大能力。
所谓感知型企业,它是Teradata在2015年年底总结出来的一个概念。意指新型企业如果想要具有竞争力,必须具备五大核心能力:打造敏捷弹性IT平台;看重行为数据分析而不仅仅是交易数据;强调不同部门之间的协同思维;数据分析结果呈现的自助与交互;建立算法模型库提升决策速度与能力。
姜欣提示,统一数据架构UDA有几个特征。
第一个特征,UDA不完全是Teradata自己的产品,也就是兼容并包,包含了很多开源的内容,比如Spark,甚至是SaaS和SPSS等数据挖掘工具,以及数据湖,数据湖可以基于Hadoop,还可以基于一些低成本的技术。
第二个特征,不同的系统和应用,整合进来不能变成烟囱,还要把它们互相联系起来、打通起来,数据要互相交互,所以系统之间有很多连接器。这个连接器,即指Teradata QueryGird。
第三,整合起来之后,还要进行很好的管理,比如监控、配置,但从运维的角度,需要一个统一监控的界面。这个统一监控的界面怎么实现,就是借助基于Web的系统管理解决方案Teradata Viewpoint。
可以看到,UDA涵盖了六大能力:采集能力、存储和计算能力、分析能力、服务开发及展现能力、统一管控能力、云化部署能力。
姜欣表示:“只要是企业想搭建一个大数据平台,一定是这个图的子集,企业可以选择适应自己的一部分内容来建设,或者按照一个路线图分步建设都可以。”
前文提到,Teradata在不同的发展阶段,先后提出过不同的UDA,那么,最新公布的UDA,新在何处?
这就涉及到UDA中最下面的“云化部署”板块。
实现异构环境的无差异化部署
在很多企业,数据的产生、采集、存储和分析不会只采用一种管理和部署模式,原因在于数据、应用、工作负载的弹性运营与管理需求。正因为如此,数据分析解决方案商需要以正确的姿势跟上这一需求甚至是走在用户前面。
如前所述,UDA提供了企业大数据分析能力的六种能力思路:采集、存储和计算、分析、服务开发及展现、统一管控和云化部署。多年来,Teradata 一直在前五个部分陆续部署,已形成相应的解决方案,新的Teradata UDA的主要变化,就体现在“云化部署”上,这就是Teradata Everywhere、Teradata无边界分析等内容。
那么,Teradata Everywhere、Teradata无边界分析又是什么?
先看看Teradata Everywhere,姜欣表示“这是一种部署技术”。或者,我们把它理解成部署方式可能更合理?
第一,专业平台部署,比如客户进行本地化部署在Teradata 负载专用平台系统一体机上;
第二,私有云部署,客户基于X86或者虚拟化的一个技术,上面再运行Teradata Database;
第三,托管云,基于Teradata自己的数据中心,提供SaaS或者PaaS服务,用户按使用付费;
第四,公有云,支持AWS,今年Q4也可以支持Azure,客户可以通过公有云直接安装和部署Teradata Database;
第五,最重要的,这四种部署方式全部都是统一的,能力完全一样,没有任何剪裁或者选项。当然,这四种部署,它们之间是可以互相打通的。
此前,有资料提出Teradata Everywhere是一种数据库,显然是一种错误的认识。
混合云架构的无差异化部署,关键的技术有两点:一是MAPS架构本身带来的弹性便于用户扩展或缩小Database规模;二是Teradata数据库适配性优化器(Adaptive Optimizer),按部署环境自动调整,从而对前端的查询与应用提供支持。
这或许是就是“Everywhere”的由来吧,无所不在。
笔者认为,实现异构环境的无差异化弹性部署,对Teradata来说是战略性的。但是,对于用户而言,即使在混合云环境下部署或配置完成相应的Database,如果要实现无差异化应用,还缺一步。这就是上文提到的Teradata无边界分析。
实现统一入口和负载均衡
无边界分析,与Teradata Everywhere其实是同一个概念下的不同视角。Teradata Everywhere从技术部署方式上使企业具备分析的能力;无边界分析表达的是怎么用、有哪些典型场景、跨平台应用到底怎么用,等等。
资料显示,无边界分析主要通过两个软件,分别是Teradata QueryGird和Teradata Unity来实现这种无缝的体验。
如果要简单理解,QueryGrid就是一个统一的查询入口,实现了不同平台环境的透明化;从体验上讲,没有平台差异;从实现角度,可以说是一个连接器。具体而言,QueryGrid基于不同平台,不管是Hadoop、Aster、Teradata或者是其他厂商的平台,或者是客户自己写的SQL,提交命令之后,QueryGrid会自动选择合适的平台去运行,而且还可以跨平台把数据结果进行连接、融合和展现。
而Teradata Unity则帮助不同平台实现工作负载的自动化分配,Unity有四大组件,负载均衡只是功能之一。但是,Unity是针对Teradata系统进行管理、数据加载、数据同步、负载均衡。
针对无边界分析,Teradata提炼了三个主要的应用场景,分别是云爆发、云数据实验室和云容灾。
首先是云爆发。比如客户会在自己机房里部署一套本地的一体化设备,存储最重要的数据、最关键的数据,比如客户隐私数据等。但是对那些体量大、价值密度低的日志、某些非结构化数据,本地存储就不经济,所以会考虑放在云端。这种情况下,两个系统要经常连接,因此需要把两个平台看成一个整体来使用,中间通过Unity的一个组件Data Mover进行数据同步。
第二是云数据实验室。客户会把一些历史数据或者一些实验数据放在云端,最重要的数据放在机房。这样云端就可以按运行一些很复杂的应用。但当云端需要使用本地机房数据的时候,就可以通过QueryGrid进行连接。
第三是云容灾。如果客户需要在云平台上进行机房数据的备份也就是搭建容灾系统,这就经常需要用到数据同步或者数据备份的功能,这也是通过Data Mover来完成。
以上,就是Teradata统一数据架构UDA的主要变化。
Teradata的五级转型
根据资料,Teradata统一数据架构UDA包括异常丰富的软件与硬件组合,如前文所述,其中大部分是在最近5年完成的布局。UDA的软件包括Viewpoint、Connectors以及Vital Infrastructure;硬件包括数据库专用平台和Aster高级分析产品组合,以及Portfolio for Hadoop组件。
从市场角度看,Teradata将业务划分为美洲区和国际集团(除美洲区之外其他区域),而亚太市场隶属国际集团,其中亚太市场是连续增长的,并且,中国市场据称是除了美国之外的第二大市场。
今年9月,Teradata正式推出敏捷型分析业务咨询服务(Rapid Analytic Consulting Engagement,RACE),该服务是一套敏捷、技术中立的方法论。该服务的核心称为“Teradata业务价值框架”。
历史上,Teradata一直以一体机为主,“而现在同时在发力云和咨询服务,可以期待业绩将会有一个大的提升。但在同时,数据库只会加强,不会削弱。”姜欣说。
以上的这个变化,从Teradata整体上看,是一个“五级转型”。
第一,坚定地走一体化数据分析平台的专业化道路。
第二,向云转型,以及在云生态下提供咨询和开发部署的服务。
第三,打造分析生态系统,包括统一数据架构、Unity、QueryGrid,还有Listener数据采集工具,以及AppCenter、开源等等。所有配套的这些软件,整合起来变成一个大数据生态。
第四,技术中立做咨询服务,比如大数据战略规划技术,包括RACE,快速迭代、敏捷开发、数据建模,不局限于Teradata平台。
第五,客户至上。
大数据分析的挑战
当前,数据分析混合云部署对于很多行业的关键业务或创新业务有着战略性的意义,而这种部署是存在不同的挑战的。作为数据分析领域的老牌厂商,Teradata怎么看这种挑战呢?
姜欣表示,这种挑战有几个层面:
首先是架构如何设计。架构要考虑技术架构、应用架构和数据架构。技术架构牵涉到到底用什么技术实现多平台的数据分析的支撑,是私有云还是混合云,混合
云用哪家公有云,等等。
其次是应用。客户要考虑哪些应用是在数据中心部署,哪些应用要在云端部署,应用负载怎么平衡。
第三要考虑数据架构。数据到底怎么分布?比如数据中心机房里分布什么数据,在云端分布什么数据,它们之间如何进行同步,数据质量如何保证一致性。
第四要考虑管理方面的规划。比如牵扯到人员、岗位、流程的变更安排。
第五是一个比较大的规划,业务战略目标层面。比如企业未来发展到底是不是要创建一些新的模式。从一些大数据分析已经走过好多年的客户案例来看,先有一个业务战略规划是非常重要的。