当地时间周二(7月30日),美国人工智能(AI)研究公司OpenAI宣布,即日起开始向部分ChatGPT Plus用户推出GPT-4o的语音模式。
OpenAI表示,春季更新期间演示的视频和屏幕共享功能并不包括在Alpha版本在内,而是在后面推出。
ChatGPT高级语音模式不同于此前的语音模式,原有的音频解决方案使用了三个独立的模型:一个用于将用户的语音转换为文本,然后由GPT-4处理Prompt,然后由第三个模型将ChatGPT生成的文本转化为语音。
GPT-4o是一个多模态模型,能够在没有其他模型辅助的情况下处理这些任务,因为在体验上将显著降低对话的延迟。
OpenAI还透露,GPT-4o可以感知用户声音中的情绪语调,包括悲伤、兴奋或者唱歌;目前,Alpha组的用户将在ChatGPT中收到提醒,并将收到一封邮件介绍如何使用。
目前GPT-4o语音模式可使用四种预设声音,Juniper、Breeze、Cove和Ember,这些声音是与付费配音演员合作制作的。
此前,ChatGPT一款名为Sky的女性配音被指与好莱坞明星斯嘉丽·约翰逊十分相似。在收到约翰逊团队的律师函后,OpenAI暂停使用Sky语音。
OpenAI还表示,它已引入了新的过滤器,以确保软件能够发现并拒绝某些生成音乐或其他形式的受版权保护的音频的请求。对于AI公司而言,避免陷入法律纠纷已成为格外需要警惕的事项。
值得注意的是,6月21日,OpenAI宣布成功收购初创公司Rockset,将该公司人才、重要技术同时纳入囊中。
(每日经济新闻综合公开资料)