AWS大数据咨询服务:助力企业用户的大数据价值之旅

在过去的几年里,大数据从一个时髦的新名词已逐渐成为每一个客户都迫切希望掌握的一种能力,大数据将如何推动企业开展数字化转型是目前大多数CIO都非常关注的一个重要议题。同时,大数据技术和开源项目在不断地发展,面对林林总总的新技术,如何让它们在企业内部发挥效力,促进数据共享,使业务用户可以随时随需地获取数据并充分挖掘出数据的价值呢?

大数据和云计算是一对孪生兄弟,如影随行。数字化转型将产生大量新的数据源,这些数据源将持续产生史无前例的海量数据,如果企业当前的数据架构存在大量的数据孤岛,数据流错综复杂,那么这些新型的数据源将创造新的数据孤岛。如果企业缺乏一个能随需应变的基础设施架构的话,这些海量数据将很快成为“历史”数据而得不到任何处理和分析。大数据依赖于云计算提供的弹性灵活的计算平台,高效低成本地为各个业务板块提供数据分析所需的所有数据。而大数据又进一步为企业深入理解客户和市场提供了可能,为数字化运营,数字化供应链等数字化转型举措提供了精细化管理的手段。

不同于互联网客户,很多企业客户在过去二十年的信息化进程中逐渐形成了技术多样化,应用驱动的技术体系架构,在向数据驱动的架构和文化转变的过程中,面临各种意想不到的困难。很多企业迫切希望拥抱大数据,但是不明确业务目标是什么。为此AWS大数据咨询服务团队针对各个企业运用大数据的不同阶段,定制了如下图所示的咨询服务:

12很多企业客户在开始拥抱大数据之初,并不明确自己要解决的业务问题到底是什么,有的企业认为只有做外部数据才算大数据,而另外一些企业则认为大数据要解决目前业务部门不能回答的问题,比如我的新客户在哪里,这些认识都有失偏颇,为此我们的大数据战略及规划服务将深入分析并梳理目前业务领域的主要挑战,企业内部现有的数据分析类应用,提出企业未来两到三年的大数据战略以及建设路线,并对企业数据文化的推广提出组织架构以及团队建设方面的建议和实践。

如果企业的业务目标明确,希望用大数据解决的业务挑战也很明确,那么如果企业尚未开始大数据相关平台的建设,并对当前的技术体系没有把握,不清楚新的大数据技术与传统的数据仓库,BI体系如何融合的话,我们将通过方案讨论会的形式,梳理与大数据相关的业务举措和业务场景,找出优先级较高的业务场景作为试点,将大数据与业务板块建立对应关系,梳理现有的数据分析类工具和应用,提出大数据架构的蓝图与大数据相关技术路线的建设指导原则,并提出大数据分析类项目的高阶设计。大数据的架构体系与企业的上云之路有着相辅相成的密切联系,因而大数据架构蓝图的规划设计将沿袭企业上云规划的七个方面,从业务,流程,成熟度,人力资源,安全,平台和运维的角度去保证大数据架构体系设计的完整度。

很多企业在过去的十多年时间里,持续不断地在建设数据仓库和BI体系,大部分企业希望能进一步提升数据分析类应用的受众面和性价比,比较突出的一个问题就是数据仓库应该如何优化,才能既满足业务部门不断增加的数据类需求,又能在成本可控,风险可控的前提下建设一个或多个新一代架构体系下的数据仓库或数据集市,为此我们的数据仓库优化服务将梳理现有的数据架构,分析数据源的多样性与数据加工清洗的逻辑规则,分析数据仓库内所有数据的使用热度,制定数据仓库迁移的路线图,设计数据加工流转的过程,包括数据采集,加工,存储和可视化,介绍并分享AWS Redshift的最佳实践包括数据建模,数据加载,以及工作负载管理,同时基于现有数据仓库之上的所有报表和分析类应用将迁移到新的AWS Redshift 之上,以达到成本优化,架构可扩展,应用灵活和快速迭代等的一系列目标。

传统的数据仓库的计算周期通常为T+1,业内很少有数据仓库是准实时的,然而很多业务需求对数据的计算和分析要求是准实时,甚至是实时的,比如说:电商客户的购买建议,工业大数据的实时监控,智能交通领域的降低路线拥堵状况等,这些实时的分析场景产生的实时数据-事件/交易/交互数量每秒以百万计,这些海量的实时数据需要强大的后台处理能力并行处理这些数据。同时,系统还应具备容错性和大规模的分布式处理能力,由此催生了大数据领域的另一个重要的技术分支-流计算。如果企业客户希望试点,优化某些数据分析类场景以实现实时的数据分析,流计算分析方案设计与实施服务将根据业务场景设计实时计算层,包括从实时数据采集到实时数据可视化的整个过程,介绍业界最新的关于实时分析层的最佳实践,并围绕AWS的Amazon Kinesis 服务构建整个架构体系,确保未来的实时分析应用可以模块化地,可扩展地部署在该平台上,为客户对市场的快速响应提供实时的数据分析基础。

围绕着数据仓库和数据集市,大部分的企业客户或多或少地已开发并投产了一些数据分析类应用,这些数据分析类应用通常由传统的套装软件开发完成,当大数据技术-大规模并行处理技术成为市场的主流,数据分析的周期可以大大缩短时,客户希望可以重新审视这类应用,并充分利用新的技术提高数据分析的效率。

数据分析类应用性能调优服务将梳理现有的数据分析架构以及应用,提出如何充分利用AWS的大数据基础服务来优化现有的数据分析类应用,改进数据流转的处理过程,从采集,存储,加工到可视化,并依据压力测试的结果再次性能调优,以求在稳定可扩展的架构下,尽可能地提升数据分析师的效率,同时我们还会提供各项大数据服务相关的培训和最佳实践介绍,其中包括但不局限于Amazon Kinesis, Lambda, Amazon EMR, Amazon Elasticsearch Service, AWS Redshift, DynamoDB和Amazon ML。

所有的数据分析类应用都依托于企业内部和外部可以获得的海量数据,这些数据可能产生于企业内部的各个业务应用,也可能来自于外部数据,设备数据,传感器数据,音频,视频等结构多样来源丰富的异构数据,如何将这些数据集成,融合,使得他们可以为数据分析师所用,是大部分企业面临的一大难题。

过去十几年中,大量的业务应用是独立开发部署,缺少统一的数据标准和数据治理规范,形成了烟囱状的应用架构,因而在数据集成时面临各种挑战,包括:数据标准不一致,数据质量差,缺少元数据管理,主数据管理等一系列问题。当外部数据,日志数据,设备数据等进一步加入到数据的洪流中来时,企业发现自己深陷数据的沼泽,而业务分析人员既不了解哪些数据可用,也不认可数据的质量,更不相信数据结果的可用性。

大数据技术和方案要解决的首要问题就是,我有哪些数据,这些数据可以提供哪些服务。因而数据沼泽可以变成清澈的数据湖,在这里所有的数据融汇贯通,各个业务板块之间数据可以共享,业务人员能从数据字典中方便地找到自己想用的数据项,分析、计算,得到想要的结果。

理想很美好,现实很骨感。AWS的数据湖解决方案咨询服务将帮助企业客户梳理希望共享的数据源,分析数据的种类和当前存储的形式,通过什么工具进行加工,加工的逻辑是什么,业务用户希望如何利用这些数据等,提出新一代的数据湖方案架构,试点两到三个数据源的融合过程,找到恰当的技术和服务采集和处理这些数据,并通过可视化的方法将数据提供给业务用户。

另外,数据湖的实现难点在于,数据的生产者不是数据的使用者,如何管理和治理这些数据,相应的一些政策规范不断提升数据的可信度和易用性。

综上所述,针对企业大数据之旅的各个阶段,AWS推出了有针对性的咨询服务内容,希望帮助客户解决从战略到战术的不同挑战,由业务愿景推导到架构设计推导出技术路线再映射到实施落地,不断地迭代开发大数据类应用,充分实现数据的价值。