4.1新闻快讯:OpenAI声音克隆仅需15秒、巨头斥资打造AI超算“星际之门”

1.OpenAI最近推出了一项革命性的声音克隆技术——“Voice Engine”。

据悉,Voice Engine通过文本输入和15秒的音频样本,便能生成与原始说话者声音极为相似、情感丰富且自然逼真的语音。

这一技术的研发始于2022年,并已应用于公司现有的文本转语音API和Read Aloud功能中的预设语音。

OpenAI认为,Voice Engine技术对于多个领域具有重大意义。在阅读辅助和语言翻译方面,它能够提供更为自然的语音输出,增强用户体验。

同时,该技术对于言语障碍患者来说更是一大福音,能够帮助他们更顺畅地交流。例如,在布朗大学的一个试点项目中,该技术成功用于创建从学校项目录制的音频中提取的语音克隆,有效帮助了言语障碍学生。

然而,鉴于合成语音技术可能存在的滥用风险,OpenAI目前仅对少数可信合作伙伴开放小规模测试。通过这种方式,公司旨在深入了解技术的潜在应用,并评估可能带来的风险。

OpenAI也希望通过此举引发社会对合成语音负责任部署的广泛讨论,共同探索如何适应这一新型技术。

此外,为了确保技术的安全使用,OpenAI还采取了一系列安全措施。这些措施包括使用水印技术追踪音频来源,以及对系统的使用方式进行主动监控。

当产品正式推向市场时,公司将设立一个“禁止语音列表”,以检测并阻止与名人声音过于相似的人工智能生成声音,从而避免潜在的版权和隐私问题。(快科技)

2.巨头斥资打造AI超算“星际之门”

据国外科技媒体 The Information 报道,微软正携手 OpenAI,投入 1000 亿美元开发代号为“Stargate”的全新人工智能超级计算机。

Stargate 也是一部 1994 年上映的电影名称,中文译名为《星际之门》。IT之家查询相关资料,米高梅和华纳兄弟公司有意重启 1994 年的经典科幻电影《星际之门》,由著名导演罗兰・艾默里奇 (Roland Emmerich) 来执导,重启之后的《星际之门》将拍摄成三部曲形式。

回归到微软和 OpenAI 的 AI 超算项目上,报道称两家公司制定了共有 5 个阶段的开发计划,目前正处于第 3 阶段,据说微软负责该项目的融资和硬件支持,项目有望 2028 年落地。

该媒体还指出“Stargate”项目的关键之一,是 OpenAI 能否在规定期限内交付 GPT-5 模型,并表示 OpenAI 目前计划在 2025 年初推出 GPT-5。(IT之家)

3.北京亦庄点亮全市最大公共算力平台,算力规模3000P

”3月29日,2024北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会在北京亦庄举办。会上,北京亦庄人工智能公共算力平台正式点亮,算力规模在北京最大可提供算力3000P。

1P相当于每秒1000万亿次的计算速度。也就是说,这里每秒就进行300亿亿次的计算,相当于超过百万台高性能电脑的算力。“大模型最需要稳定的算力。”推出大模型产品已有三年的人民中科公司CEO侯黎明更真切地体会到算力的可贵。即便该公司的大模型已在政务服务等领域应用,但每隔一段时间就需要迭代升级,这就需要算力进行训练了。过去,他需要四处寻找GPU卡,凑出来的算力并不稳定,有时候算力也不行。这是许多大模型企业面临的问题,特别是初创团队更是被算力扼住“喉咙”。

为此,近两年北京布局建设了多处公共算力平台。这就像电力公司给供电一样,只不过这些机柜里提供的是算力。因为规模大、稳定,所以公共算力可提高训练的效率,进而降低大模型训练耗费的时长。以往企业自己要算几个月的事,在这里十几天就能搞定。“经开区规划了超10000P的算力规模。”经开区相关负责人说,未来将推出支持政策,为人工智能企业提供公共普惠的算力、创新领先的算网服务、细致完善的解决方案,助推大模型训练和行业应用。(综合自《北京日报》,北京亦庄官方发布)