北京时间2022年11月30日凌晨,亚马逊云科技CEO Adam Selipsky,奉上了re:Invent第二场重磅演讲。
作为科技八卦党,在看了一遍视频回放后觉得,今年令人特别惊艳的新东西少了点,更多是对现有产品体系架构的补充。
当然,与“从零到一”的夺人眼球不同,行百里者半九十,这些能解决实际需求的补充和完善同样重要。
本文简单梳理一下主要发布的内容,所以,接下来进入看图说话环节:
CEO演讲的主题是探索广阔的数据领地(Exploring the vast data realm),具体分为合适的工具(Right tools)、数据的集成(Integration)、治理(Governance)和洞察(Insights)四部分。
第一部分,合适(正确)的数据工具。
合适的工作分成了三个方面,一个是数据库服务,一个是大数据分析服务,另一个是AI/ML服务。
数据库方面,亚马逊云科技有引以为傲的一系列数据库,其特点是类别非常全面,用法上,强调专库专用。之前我也简单梳理过,有兴趣的可以看一下,了解下基本概念和相互间的区别。
亚马逊云科技最自豪的数据库肯定就是Amazon Aurora,性能吊打开源的MySQL和PostgreSQL,成本比商业版的数据库低,最重要的是,它在亚马逊跟甲骨文的隔空对线中立下了汗马功劳。
大数据分析产品家族有七大服务,其中以云上数据仓库Amazon Redshift最为出名,七大服务的功能定位各不相同,绝大部分都以Serverless的方式对外提供服务,除了最后一个。
就在强迫症观众快要掀桌子的时候,Adam非常识趣地发布Serverless版的Amazon OpenSearch Service(预览版),至此,数据分析家族全是Serverless的了。
在AI和机器学习部分,亚马逊云科技从IaaS到PaaS和SaaS全覆盖。IaaS层支持的硬件类型特别多,除了英伟达的显卡和英特尔的Habana Gaudi,还有FPGA和自研的训练芯片Inferentia,PaaS层最值得关注的还是机器学习IDE——Amazon SageMaker。
第二部分,减少数据集成的痛苦。
数据集成部分的新发布将现场气氛推向了一个小高潮,因为Adam喊的是要帮数据工程师跳过ETL,绕过手动构建数据通道的过程,创造一个没有ETL的理想世界。
2022年,即使没有操作过也肯定也听过ETL(extract, transform, load)的大名,ETL简直就是痛苦的代名词,重复操作多,操作过程复杂,耗费时间巨多。
新发布的服务叫Amazon Aurora zero-ETL integration with Amazon Redshift,它是怎么做的呢?
其实,为了减轻ETL带来的痛苦,亚马逊云科技有两类操作:
第一类,让Amazon Redshift和Amazon Athena都支持联邦查询,所谓联邦查询是让数据停在原地,让查询计算引擎跑到数据旁边,从而避免手动ETL;
第二类,让数据源跟Amazon Redshift集成,比如AWS Data Exchange、SageMaker都是如此,它是自动将数据同步到Redshift里,从Redshift里查数据,而ETL过程无需手动操作;
Amazon Aurora zero-ETL integration with Amazon Redshift大致就就属于后者,用法上,只要你指定Aurora里的表,表里的数据马上就自动地、快速地同步到Redshift里了。
Amazon Redshift integration for Apache Spark的原理也是一样,把EMR、Glue和SageMaker的数据同步给Amazon Redshift,然后让Spark去Redshift查数据就行了。
第三部分,数据的治理(Governance)。
数据治理解决数据价值挖掘过程中的常见问题:数据访问控制的太严了,容易找不到要分析的数据,数据少了,数据价值就没法释放。数据访问控制的太松了,数据出现在不该出现的地方,容易出问题。
为了解决这个问题,于是就有了Amazon DataZone,一个专门用来给数据做分类,做数据发现,做数据分享和管理的服务,像是一个给企业准备给的数据门户。
个人觉得,Amazon DataZone的重点是帮你发现数据,万一某一个不容易发觉的角落里藏着有价值的数据,没被用上岂不是很亏,实践中,企业可以根据组织架构和业务部门的划分来发现和组织数据。
为了帮企业发现和利用数据,Amazon DataZone支持用元数据和机器学习技术来对数据进行分类,分类整理好的数据可以交给工程师、数据科学家、产品经理、分析师和业务人员来使用,在这里开展基于数据的分享和协作。
第四部分,更容易获得的数据洞察。
这部分主要介绍的是亚马逊云科技的BI服务QuickSight,最早是2015年发布的,它能让非技术人员进行数据可视化,获得洞察。
2020年,QuickSight新增了以自然语言进行交互的方式,不过,查询的数据都是当前已有的数据。
而现在,ML-powered forecasting with Q让QuickSight用自然语言对未来作出预测,比如,你可以用英语说:“请告诉我未来12个月的销售情况”,然后,系统会立马返回一个预测结果。
更有意思的是,你还能追问造成一个现象的原因,比如,你可以问,“为什么1月份的销售数据增长了那么多?”,而系统会给出一些具体的解释。
从技术上来讲,支持中文也完全不是问题,从实际使用来讲,主要是优化非技术人员使用数据的能力。最后,能不能获得好的洞察,得看你会不会问问题了,是不是还挺有意思的?
最后,顺便看一眼其他发布
除了关于“探索广阔的数据领地”这一主题,Adam还零星介绍了其他新服务:
在安全方面,威胁检测响应服务Amazon GuardDuty新增了对容器运行时环境的检测,这项服务叫做Container runtime threatdetection for GuardDuty,帮用户发现容器内部的安全威胁。
另外一项安全发布叫Amazon Security Lake,顾名思义,这是一个专门分析安全相关数据的数据湖,用户自己创建数据湖,湖里导入云上和本地环境中的各种安全相关数据,然后,使用常见的各种安全公司的检测分析工具从数据里找出安全问题,提高企业的安全水平。
在机器学习方面,发布了新一代的机器学习推理实例Inf2,推理的性能提升4倍,延迟降低了十倍。推理方面没什么可讲太多的,能做推理的芯片很多,重点是提升效率,缩短推理的时间和推理的成本。
在高性能计算领域,在原有基于AMD霄龙的Hpc6a的基础上,新推出了两款主机:
一个是之前提到过的Hpc7g,采用的是自研的专门为HPC负载优化的Graviton3E处理器和EFA高性能网络,强调计算和网络表现都有较大提升。
另一个是强调数据和内存密集型负载的Hpc6id,其特点是性价比比较高,它采用的是英特尔第三代至强可扩展处理器,能用上英特尔在高性能计算领域的优势,比如MKL和AVX 512指令集之类的。
最后,还发布了几个面向行业场景的新发布:
一个运行大规模空间模拟负载的托管服务——AWS SimSpace Weaver,省去了用户做空间模拟任务时,自己管理配置软硬件环境的麻烦。
云呼叫中心Amazon Connect新增了三个功能,一个是支持用机器学习来帮助预测和资源规划,一个是做绩效管理的功能,还有一个是面向最终用户的交互页面。
供应链管理解决方案AWS Supply Chain,可用来提升供应链的可见性,能给企业提供具有可执行性的洞察和建议,帮助企业缓解供应链方面的风险。
面向广告营销场景的AWS Clean Rooms,让用户跟合作伙伴分享数据,同时,可以保护数据隐私不泄露。
面向生物医疗领域的Amazon Omics,用于存储、查询、分析生物组学数据,并从数据中获得洞察,这是为需要大规模数据分析的生物医疗研发场景准备的。