21日,周四凌晨,AI target=_blank class=infotextkey>OpenAI在官网宣布将在今年十月份通过API向ChatGPT Plus和企业版用户提供全新文生图大模型DALL-E 3,ChatGPT也将集成在其中,彼此加持下将开启久违的多模态输出模式,用户通过文本就能直接在ChatGPT中生成各种类型图片。官网链接:https://openai.com/dall-e-3
根据OpenAI官方的说法,DALL-E 3“比以往系统更能理解细微差别和细节,让用户更加轻松地将自己的想法转化为非常准确的图像”。这里举个网友分享的例子,提示词(prompt)都是“一幅描绘篮球运动员扣篮的油画,并伴以爆炸的星云”,来对比下前代的DALL-E 2(左)和现在DALL-E 3(右)的绘图效果。
很明显的能看出来,DALL-E 3在细节、亮度、清晰度等方都进步明显,甚至人物的侧脸还颇有NBA乔帮主--迈克尔·乔丹年轻时的感觉。除了炸裂的绘图效果之外,此次 DALL-E 3 的最大看点莫过于和ChatGPT的集成,它原生构建在ChatGPT之上,用ChatGPT来创建、拓展和优化提示词。这样一来,用户无需在提示词上花费太多时间即可完成绘图。具体说来,因为与ChatGPT的集成,用户不必绞尽脑汁地想出详细的提示词来引导和完成绘图了。只要输入一个想法,ChatGPT会自动为DALL-E 3生成详细的prompt,匹配程度之高宛如量身定制,同时用户也可以使用自己的提示词。
通过这几个实例,可以发现DALL-E 3在绘制写实、二次元、平面、创意、朋克、3D等多种类型的图片时的表现还是可圈可点的。
2021年1月5日,OpenAI公布了第一代DALL-E,通过120亿参数的GPT-3来理解自然语言输入并生成相应的图片,既可以生成现实的对象也能生成现实中不存在的对象,这也是它保留至今的特点。它的名字源于Pixar(皮克斯)2008年的动画电影,《机器人总动员》中的主角WALL-E(瓦力),以及20世纪西班牙加泰罗尼亚著名画家Salvador Dalí(萨尔瓦多·达利),是二者的混成词。两个月后,DALL-E的论文和代码正式公开。
在DALL-E之前已有其他许多人工神经网络可以生成逼真图像,而DALL-E的特点在于它能够通过纯文本描述生成类似的图像。2021年与DALL-E同时公布的还有CLIP(Contrastive Language-Image Pre-training,对比式图文预训练)大模型,这是一个独立于DALL-E之外的并行大模型,主要用于理解输出图像并为其打分。DALL-E生成图像后还有要由CLIP模型进行筛选,以保证绘制图像的质量。
2022年4月,OpenAI宣布了新一代产品DALL-E 2,表示它可以从文本描述中生成照片级的图像,是一个“可以从文本描述中生成原创、逼真的图像和艺术”的产品,另外还有一个配套的编辑器,允许对绘图进行简单修改。虽然DALL-E 2是新产品,但有时仍会犯一些人类不常犯的错误,比如“一本黄色的书与一个红色的花瓶”和“一本红色的书与一个黄色的花瓶”,面对这种绕口令似的提示词时DALL-E 2就非常容易混淆。
时隔一年半左右,DALL-E 3即将面世,虽然目前仍处于研究预览版本。OpenAI的想法是在十月首先向ChatGPT Plus会员和ChatGPT企业版用户发布,随后再向研究实验机构及其API服务发布。不过,OpenAI并未透露何时或者是否计划发布免费的公开版本,DALL-E 3背后的技术细节和相关论文可能也不会公开。
自消息公布以来,关于DALL-E 3与Midjourney孰优孰劣的话题迅速就引起了各界的争论。X(之前的推特)用户@MattGarciaEth已经将二者生成的图片进行了很多比较。具体结果也是见仁见智,此处不予置评。
提示词“一个鳄梨坐在治疗师的椅子上,说‘我只是觉得内心很空虚’,中间有一个坑大小的洞。”
提示词“一颗由半透明玻璃制成的人心,矗立在惊涛骇浪中的基座上。”
OpenAI称在DALL-E 3的开发上投入了大量精力,包括强力的安全措施以防止生成有害内容。OpenAI表示通过与外部的“红队”成员(一个系统测试团队,用故意试图破坏的办法测试系统的安全性)合作,同时加入了输入分类器的协作,这是一种训练大模型忽略某些单词以避免显式或暴力提示词的方法。此外,DALL-E 3也无法生成公众人物的图像,以及在世艺术家风格的图像,这一点是相比前代很大的不同。
过去曾介绍过,有艺术家社区曾起诉Stability AI和Midjourney,以及艺术网站DeviantArt,指控使用他们拥有版权的作品来训练文生图大模型。前不久OpenAI也差点面临类似的麻烦,此次将允许艺术家将其作品从未来版本的文生图大模型中删除,不用于训练。创作者可以提交一张他们拥有版权的图片,并在网站上填写表格要求将其移除。这样,未来的DALL-E 3上线时就可以屏蔽与艺术家的图像和风格相似的结果。