智东西
作者 | 香草
编辑 | 李水青
智东西9月21日消息,今天凌晨,AI target=_blank class=infotextkey>OpenAI宣布其文生图工具DALL·E即将升级至DALL·E 3,并将原生集成至ChatGPT中。
相比去年发布的DALL·E 2,在提示词相同的情况下,DALL·E 3对文字的理解程度及生成的图像质量显著提升。时常被诟病的“无法在图像上生成文字”的问题,也在这次升级中得到了解决。
▲DALL·E 3(右)和DALL·E 2(左)生成图像效果对比图,提示词为:在暴风雨的大海中,一个半透明玻璃制成的人类心脏矗立在一个基座上。阳光穿透云层,照亮了心脏,揭示了一个微小的宇宙。“寻找你内心的宇宙”这句话在地平线上用粗体字蚀刻着。(图源:OpenAI、Sambhav Gupta)
而DALL·E 3与ChatGPT的结合,更是产生了奇妙的化学反应。用户不再需要学习如何使用合适的提示词来描述自己想要的图像,因为ChatGPT可以直接理解自然语言,帮你完成这一切。
▲在ChatGPT中使用DALL·E 3直接生成图像(图源:OpenAI官网)
升级版的DALL·E 3将于10月首先向ChatGPT Plus和企业版客户开放,之后在秋季稍晚些将提供API接口并面向公众开放。
此外,OpenAI特别强调DALL·E 3已采取多方面安全措施,包括暴力内容限制、拒绝生成含公众人物图像、拒绝模仿在世艺术家风格等,且允许创作者提交删除自己图像的申请。
那么DALL·E此次升级究竟实现了怎样的效果?和ChatGPT的集成又将擦出什么样的火花?OpenAI通过一段视频演示以及多张图像示例,向我们生动地展示了DALL·E 3的强大之处。
一、原生集成于ChatGPT,DALL·E 3可以直接“讲故事”了
DALL·E此次升级,最大的亮点无疑是与ChatGPT的原生集成。OpenAI称,现在的文生图系统大多将重点放在生成图像的质量和水准上,而忽略了文字和描述的重要性,这使得用户不得不学习复杂的提示词工程。
而DALL·E 3通过集成ChatGPT,使文字生成图像这一过程中的“文字”部分实现了质的飞跃。
过去,当用户使用DALL·E 2、Midjourney等文生图AI工具时,通常的做法是:首先通过ChatGPT等聊天机器人,用简单的提示词生成丰富的图像描述文本;然后再进入文生图软件,用图像描述文本生成图片。如果生成效果不佳,就需要反复操作多次,步骤十分繁琐。ChatGPT+DALL·E 3的组合则直接省去了中间步骤,一步到位。
OpenAI提供了一个视频来展示DALL·E 3的使用效果。这是一个家长为5岁孩子将想象带到现实中的故事。
当家长询问:“我家5岁的宝宝总是提到一只‘超级向日葵刺猬’——它会长什么样子?”
ChatGPT生成了四段描述该刺猬的文字,随后根据文字生成了相应的图像。
家长选择了其中一张图像,追问道:“我的女儿说这只刺猬名字叫Larry,可以提供更多它的图像吗?”
ChatGPT此时根据用户选择的刺猬形象,生成了更多不同画风的图像。
随后,家长说想看看Larry的房子,ChatGPT便生成了一张Larry在房门口检查信箱的画面。
值得注意的是,他的信箱上甚至写着自己的名字“LARRY”。这意味着DALL·E 3实现了在图像上写字的功能。
结合ChatGPT的文字生成功能,这只小刺猬还可以拥有自己的“人设”。
当家长追问:“是什么让他如此‘了不起’?”ChatGPT回答,是因为他有着向日葵花瓣作为“刺”,并且很善良。
家长继续追问,他的善良是如何体现的?ChatGPT便生成了一幅漂亮的插画,画面上,Larry和蝴蝶、小鹿以及其他的小刺猬伙伴们一起在草丛上玩耍。
此外,ChatGPT在画风迁移方面也完成得很好。可以生成不同风格的Larry,比如贴纸风:
最后,当家长提出是否可以基于这些内容讲一个睡前故事,ChatGPT便生成了一个名为“了不起的向日葵刺猬Larry”的故事。
当然,ChatGPT也可以继续为自己讲的这个故事创作插图。
不得不说,ChatGPT和DALL·E的结合可以实现1+1>2的效果。比起之前提供多个独立、专业提示词的生成方式,现在的DALL·E 3更像是以讲故事、聊天的方式,完成了图像的生成和二次创作。
二、相同提示下,DALL·E 3生成图像质量显著改进
DALL·E 3和ChatGPT的集成之所以能够产生优秀的“连招”效果,离不开DALL·E 3模型本身的性能提升。
DALL·E 3在图像生成方面比DALL·E 2改进了很多。OpenAI提供了一个例子,对于同样的提示词“一幅表现篮球运动员扣篮的油画,描绘成星云的爆炸”,同时使用DALL·E 2和DALL·E 3生成图像并进行对比。
可以看出,DALL·E 3对“扣篮”这一动作的描绘更加准确,对“星云爆炸”这一风格的迁移也更加相似。相比之下,DALL·E 2描绘的图像手绘质感更强烈,对提示词的表现没有那么贴近。
▲DALL·E 2(左)与DALL·E 3(右)生成图像对比(图源:OpenAI)
OpenAI在旗下社交媒体Instagram上分享了多张由DALL·E 3生成的图像,并分享了用于生成这些图像所使用的文字和描述。
比如下图,所使用的提示词为:一个牛油果坐在治疗师的椅子上,说“我只是觉得内心很空虚”,它的身上有一个坑大小的洞。治疗师是一个勺子,正在潦草地记着笔记。
▲DALL·E 3生成的插画(图源:OpenAI)
一位AI爱好者Sambhav Gupta在其社交媒体X上分享了他利用OpenAI提供的提示词在DALL·E 2中生成的图像。可以明显看出,DALL·E 2对于这种自然语言提示词的理解差了很多,也无法生成准确的文字,看起来更像是乱码。
▲Sambhav Gupta使用DALL·E 2生成的图像
Gupta尝试了OpenAI公开分享的9张图像的提示词。可以看出,无论是从准确性上,还是画面的精致程度上,DALL·E 3比起DALL·E 2都有较大的提升。
▲Sambhav Gupta使用DALL·E 2生成的图像与DALL·E 3生成图像对比
DALL·E 2于去年4月发布,并于同年7月面向公众开放。时隔一年多,OpenAI宣布新版DALL·E将于10月首先向ChatGPT Plus用户和企业版用户发布,随后在秋季提供API接口并面向公众开放。
三、注重安全、版权保护,创作者可提请删除作品
9月20日,OpenAI宣布面向全球公开招募“红队网络”,邀请有兴趣提高OpenAI模型安全性的领域专家组成一个社区,帮助评估和抵御风险提供信息。
此前,OpenAI曾多次被起诉侵权,指出其大模型训练未经允许使用他人的作品。也许是为了规避类似的情况,此次更新时,OpenAI特别强调了安全性和版权问题。
OpenAI声称,团队已采取相应的措施来限制DALL·E 3生成含有暴力、成人、仇恨等违规内容的能力。此外,他们与红队网络合作,提高了风险领域的安全性,拒绝生成包含公众人物的内容。
在图像侵权方面,OpenAI称DALL·E 3将拒绝要求模仿在世艺术家的风格,且创作者们可以通过填写表单,要求OpenAI将他们的作品从模型训练中删除。
▲OpenAI为创作者提供的申请表单(图源:OpenAI官网)
和DALL·E 2一样,用户使用DALL·E 3创建的图像可自由使用,用户对图像拥有使用权、商用权等。
此外,在最近备受关注的数字水印方面,OpenAI称正在研究识别AI生成图像的最佳方法。他们正在测试一种新的内部工具,用于识别图像是否由DALL·E 3生成,并且希望利用这一工具可以更好地了解图像的生成方式。该工具相关的信息也将尽快公布。
结语:DALL·E 3+ChatGPT,重新定义AI绘画方式
今天凌晨,OpenAI宣布将在10月开始陆续向ChatGPT Plus版、企业版等原生集成升级后的DALL·E 3。从目前公开的资料来看,DALL·E 3将会是一次巨大的变革,不仅通过与ChatGPT的结合颠覆了文字描述的方式,在生成图像的质量上也实现了显著的进步。
尽管OpenAI此次更新特别强调了安全及版权相关的问题,但在AI绘画领域,相关的争议仍备受关注。此外,AI绘画工具对于艺术创作者而言究竟是辅助还是威胁,创作者是否会因此失业等问题,也值得企业和社会思考和反思。
无论如何,DALL·E 3的此次更新势必会引发大范围的讨论和争议,甚至可能直接重新定义AI绘画的方式。未来,AI绘画领域将如何发展,是我们共同关心的问题。