OpenAI本周对外发布新一代的文字转图像模型DALL·E 3,指出该模型不但更能精确地以图像呈现使用者所输入的文字描述,亦允许使用者利用ChatGPT来产生不同的文字描述与相对应的图像。现阶段DALL·E 3尚处于研究预览阶段,预计于10月供应给ChatGPT Plus及ChatGPT Enterprise客户。
OpenAI指出,现代的文字转图像系统倾向于忽视文字或描述,迫使使用者学习如何输入提示,但DALL·E 3在如何精确依照使用者所输入的文字,来生成图像的能力上,却有大幅成长。
例如得以文字描绘“一个有著明月照耀的熙攘街道,一名身穿天鹅绒斗篷的年轻红髮女子与穿著笔挺西装的老商人正在讨价还价,老商人一方面还在讲著蒸汽朋克电话”DALL·E 3即可生成的画面。
就算在DALL·E 3中输入与DALL·E 2同样的文字描述,要求“以油画呈现具备爆炸效果与张力的灌篮动作”,DALL·E 3的表现明显更加突出。
此外,使用者还可藉由ChatGPT的协助来生成文字叙述,只要在ChatGPT中输入简单的句子,告诉它你想看到的画面,ChatGPT便会自动生成详细的叙述以用来输入DALL·E 3,而且ChatGPT还能生成不同的描述,一直到DALL·E 3所产生的画面符合使用者的需求。
对于透过DALL·E 2或DALL·E 3所生成的画面,使用者都可自由使用,不需OpenAI的许可便可重印或出售。
至于对DALL·E 3的限制则与DALL·E 2差不多,OpenAI限制了DALL·E 3生成暴力、成人或有害内容的能力,也会拒绝使用者要求生成仍在世的艺术家风格图像的请求。