生成式AI的五大发展趋势-DOIT-数据产业媒体与服务平台

一、多模态生成式AI成为未来创新引擎

越来越多的生成式AI模型正在向客户提供多模态内容生成能力。多模态生成式AI是指AI工具能够同时执行多种任务，如看、听、说话、阅读、创作。例如，Dall-E 3能够生成高质量图像，而ChatGPT则能看、能听、能说，能写。

OpenAI是最早通过GPT-4向用户提供多模态模型访问的供应商之一，谷歌的Gemini和Anthropic的Claude 3也紧随其后。不过，到目前为止，大多数AI公司还没有公开提供多模态模型。即使有也可能对输入和输出有大的限制。

而在不久的将来，多模态生成式AI可能会从独特的卖点变成消费者对生成式AI模型的期望，至少在所有付费的大型语言模型（LLM）订阅中是这样。

此外，预计多模态建模本身的复杂性和准确性将有所增长，满足消费者对一体化工具的需求。这可能表现为提高图像和非文本输出的质量，或增加对视频、文件附件（如Claude在做的）和互联网搜索小部件（如Gemini在做的）的更好功能和特性。

ChatGPT目前允许用户使用文本（包括代码）、语音和图像输入和输出，但ChatGPT没有内置的视频输入或输出功能。目前OpenAI正在试验其文本到视频生成工具Sora，并可能会将其一些功能嵌入到ChatGPT中。

而谷歌的Gemini目前支持文本、代码、图像和语音输入和输出，但图像生成有很大的限制，该工具目前无法生成包含人物的图像。

二、AI服务得到更广泛的应用

AI服务在AI/ML商业案例中越来越受欢迎，但对生成式AI而言，一切才刚刚开始。而随着生成式AI技术的采用率持续增加，行业内更多需要竞争力的企业可能会转向专门从事生成式AI并具有其行业或项目类型经验的咨询公司和管理服务公司。

具体来说，随着AI建模作为服务（AIMaaS）的市场份额增长，更多的AI公司将努力提供可定制的、轻量级的和/或开源模型，来扩大其对新受众的覆盖。生成式AI即服务计划也可能关注企业做好生成式AI所需的支持框架。这自然会导致更多公司专业化，其他公司投资于AI治理和AI安全管理服务。

三、生成式AI加持的机器人来了

这将大大扩展机器人和AI能够为我们完成的任务范围。生成式人工智能可以自动化和增强认知和创造性任务，包括医生、设计师、音乐家、营销人员等所做的任务。与机器人结合后，生成式人工智能可以应用于工厂车间、建筑工地、零售商店和酒店等领域。

我们会慢慢意识到，生成式AI将显著改变劳动力和工作场所的外观，但专家们对人类员工本身的影响褒贬不一。在这种劳动力影响的早期阶段，生成式AI主要通过自动化、AI驱动的内容和建议、分析和其他资源来支持办公室工作人员。

早期预测生成式AI将主要处理生产线、制造业等体力劳动工作，而目前为止，生成式AI已经对其最直接和广泛的影响产生了影响创意、文案和客户服务任务和角色。

四、对安全性、隐私和治理更加重视

2024年3月，欧盟议会正式批准了欧盟AI法案。在未来的几个月和几年里，使用AI的组织或与欧盟公民数据相关的组织将受到这项新法规及其规定的约束。这是首个主要关注生成式AI及其对数据隐私影响的法规，但绝不会是最后一个。

在全球范围内，联合国已经开始讨论AI治理的重要性，国际合作，以及通过建立的全球框架负责任地开发和部署AI。虽然不太可能变成可执行的全球法规，但这是一场重要的对话，可能会决定不同国家和地区对伦理AI和法规的方法。

一些企业将开始更大规模地使用专门的AI治理和安全平台，人工智能模型和内容审查中的人类将成为标准，所有使用生成式AI的公司都将以某种方式运作AI政策，以防止重大责任和损害。

五、更关注数据质量和幻觉管理

随着政府、监管机构、企业和用户在通过生成式AI创建的内容中发现危险的、被盗的、不准确或否则糟糕的结果，他们将继续向AI公司施压，要求改进他们的数据来源和培训流程、输出质量和幻觉管理策略。

虽然对高质量结果的关注是许多AI公司当前战略的一部分，但这种方法和对公众的透明度只会扩大，来帮助AI企业保持竞争力。

在另一个方面，谷歌的Gemini已经有了一个相当全面的反馈管理系统，用户可以轻松地点赞或差评，并将额外的反馈发送给谷歌。他们还可以修改响应，报告法律问题，并只需一键点击即可用互联网来源双重检查生成的内容。这些功能为用户提供了他们的反馈很重要的保证。预计会看到更多的生成式AI公司采用这种方法，以更好地进行社区驱动的生成式AI质量保证。

生成式AI的五大发展趋势

崔欢欢

相关推荐

近期文章

热门标签