2023年最火的技术话题便是大语言模型和AIGC,许多企业都关心如何结合自己的数据训练模型,部署更懂自身业务的大语言模型。
Cloudera(肯睿)是一家企业级数据云服务公司,原本就在帮助企业管理数据,帮助企业落地大数据和机器学习能力,如今,也公布了AI时代的产品路线,要帮助企业落地大语言模型。
Cloudera Data Platform(CDP)是Cloudera(肯睿)的核心产品,它是一个企业级的数据云平台。它能够跨公有云和私有云进行部署,它包含数据工程,数据仓库,运营数据库和机器学习等服务,这些服务可用于实时分析,批处理分析,预测性分析和机器学习任务。
CDP不仅提供了一种自助式数据体验,使数据科学家,数据工程师,商业分析师和开发人员能够容易地访问和分享数据。而且还提供了一个完整的机器学习工作流,使得数据科学家和机器学习工程师可以更快地构建和部署模型。
Cloudera 大中华区技术总监刘隶放表示,Cloudera是一家值得信任的帮助别人管理数据的公司,Cloudera的平台上面管理的数据已经超过2500万TB,其规模与很多云服务商的整个数据体量相当。
在刘隶放看来,Cloudera(肯睿)在帮助企业落地大语言模型方面有独特优势。
首选,企业用户不会直接用公有云上的大模型,这些模型有很多都是根据互联网上的数据训练而来的。企业会基于自己的数据做训练,这些数据跟企业的关联性更高,训练出的模型的实用性也更强。巧的是,用户的很多数据原本就在Cloudera的平台上。
第二点,Cloudera可以帮助企业落得更值得信任的大语言模型。ChatGPT的AI幻觉问题很明显,当没有对应的答案时,它经常会“一本正经的胡说八道”。Cloudera一直在做大数据分析,尽量在保持原始数据的基础上来加工,对于输出的结果还会有一个印证的过程,它可以利用大数据分析的能力对AI输出的答案进行分析和验证。
如今,Cloudera提供可部署在本地和公有云的数据平台,过去两年来,Cloudera一直在宣传在数据编织的基础上面,帮助用户去做数据的治理和管控。同时,也在强调数据库、数据湖、数据仓库融合等技术的优势。而现在,Cloudera的平台将转向去成为一个AI平台。
Cloudera的AI平台CML(CDP Machine Learning)可以分为三个部分:
首先,就是以CDP为基础的数据平台,这里有很多用户数据;
第二部分,它可以帮助用户加工用于训练的数据,这套加工数据的流程原本用在大数据流程中,AI也同样需要对数据进行加工处理;
第三部分,它可以托管和运行大语言模型,并在模型的基础上,构建和部署AI应用。
刘隶放表示,凭借在数据技术方面安全可控的优势,CML用户也吸引了很多用户。目前,很多国内的企业用户都在思考如何落地大语言模型,Cloudera的CML平台可以让用户在有管控的情况下来部署大语言模型。
除了在大语言模型方面的新布局,Cloudera还介绍了监控和优化CDP部署的新服务,叫做Cloudera Observability。
Cloudera Data Platform (CDP)是一个可以跨私有云和公有云部署的平台,实际部署中,可能分布在多个基础架构上。在如今复杂系统架构中,想仅仅通过监控来掌握所有情况绝非易事,很多时候都会影响资源利用率和性能表现。
此外,由于数据和分析都是在混合云上完成的,这对财务管理也带来了很大挑战。将预算按照团队或者场景划分都会很需要会计做很多工作,预测未来支出也会更麻烦。总之,财务管理绵连的挑战也非常巨大。
此前,Cloudera有一个产品叫Workload Management,它主要是做工作负载调优的,但是在现在混合云的环境之下,光有调优是不够的。于是就有了Cloudera Observability ,它可以帮助企业解决上述问题。
Cloudera Observability 有助于提高系统的可控性和稳定性。当系统越来越复杂,对运维人员的技能要求也越来越高,在排查故障,找出问题时的难度也越来越高。而Cloudera Observability 可以减轻运维人员的负担,从而提高系统的可控性和稳定性。
Cloudera Observability 可以提高对于系统资源的管控,多云环境下的资源经常会收缩或者膨胀,资源是在不同动态的变化当中,运维人员希望在运维过程中,对于系统资源的消耗有一个评判的标准,从而找到负载的优化方向。
Cloudera Observability可以提高财务管控能力,以系统监控和数据分析技术为基础,帮助企业管理IT资源的使用成本,从财务角度出发,对整个系统的资源使用状况做一个评判,从而帮助企业更好地管理IT资源的使用状况。
目前,Cloudera Observability是SaaS版本,直接部署在公有云上的,从刘隶放的介绍中了解到,Cloudera很快还会推出一个本地的部署版,更适合那些行业监管严格,对数据敏感的用户,它可以在本地做分析。