谷歌又炫技：派个AI，帮科幻大师刘宇昆把小说写了

时间：2022-11-03 10:08:38 来源：硅星人作者：杜晨

Jeff Dean 表示：“更多的进展即将到来。”

欢迎关注“新浪科技”的微信订阅号：techsina

文/杜晨

来源：硅星人（ID:guixingren123)

近几年科技行业疯狂加注超大规模语言模型，一个最主要的成果就是“人工智能创造内容”（AIGC）技术突飞猛进。两年前 OpenAI 通过 GPT-3 模型展示了大语言模型的多样化实力。而最近各种 AI 基于文字提示生成图片的产品，更是数不胜数。

有趣的是，今年以来 AIGC 的风头基本都被Stable Diffusion、Craiyon、Midjourney等“小玩家”给抢了——像谷歌这样的 AI 巨头，反而没怎么见动静。

但其实谷歌并没有“躺平”。

临近年底，在11月2日早上，谷歌终于放出了大招。这家在 AI 研究上最久负盛名的硅谷巨头，居然一鼓作气发布了四项最新的 AIGC 技术成果，能够根据文本提示生成：

高分辨率长视频

3D模型

音乐

代码

以及可控文本生成技术。

图片来源：google Research

“用 AI 赋能的生成式模型，具有释放创造力的潜能。通过这些技术，来自不同文化背景的人们都可以更方便地使用图像、视频和设计来表达自己，这在以前是无法做到的，”谷歌 AI 负责人 Jeff Dean 说道。

他表示，经过谷歌研究人员的不懈努力，现在公司不仅拥有在生成质量方面在行业领先的模型，还在这些模型基础上取得了进一步创新。

Jeff Dean 图片来源：谷歌

这些创新，包括“超分辨率的视频序列扩散模型”——也即将AI“文生图”扩展到“文生视频”，并且仍然确保超高清晰度。

以及 AudioLM，一个无需文字和音乐符号训练，仅通过聆听音频样本，就可以继续生成填补乐曲的音频模型。

从生成文字，到生成代码、音频、图片、视频和3D模型，谷歌似乎正在证明 AIGC 技术的能力还远未达到边界，并且大有用武之地。

接下来，一起好好看看谷歌这次都放了哪些大招。

| AI 写作助手，深受刘宇昆喜爱？

说实话，看到谷歌做了一款 AI 写作工具的时候，硅星人是略微有点担心失业的……

但是了解了关于这款工具更多的情况之后，这种心情更多地转化成了欣慰。

我们一直在强调AI背后的“大语言模型”技术背景。而谷歌推出的 LaMDA wordcraft，就是这样一款将语言模型核心功能发挥到极致的技术

LaMDA Wordcraft 是在 LaMDA 大语言模型的基础上开发了一个写作协助工具，是谷歌大脑团队、PAIR（People + AI Research）团队，以及 Magenta 音频生成项目组的合作结晶。

它的作用，是在创作者写作的过程当中，根据现有的文本产生新的想法，或者帮助重写已有文句，从而帮助创作者突破“创作瓶颈” （writer‘s block）。

Wordcraft 用户界面图片来源：Google Research

LaMDA 本身的设计功能很简单：给定一个单词，预测下一个最有可能的单词是什么，也可以理解成完形填空或者句子补完。

但是有趣的是，因为 LaMDA 的模型规模和训练数据量实在是太大了（来自于整个互联网的文本），以至于它获得了一种“潜意识”的能力，可以从语言中学习很多更高层次的概念——而正是这些高层次概念，对于创作者的工作流程能够带来非常大的帮助。

谷歌在 Wordcraft 用户界面中设计了多种不同的功能，能够让创作者自己调整生成文本的风格。“我们喜欢把 Wordcraft 比喻成‘魔法文字编辑器’，它有着熟悉的网页编辑器的样子，背后却集成了一系列 LaMDA 驱动的强大功能，”谷歌网页如是写道。

你可以用 Wordcraft 重写语句，也可以让他把调节你的原始文本从而“更有趣”（to be funnier）或者“更忧郁” （to be more melancholy）一点。

在过去一年时间里，谷歌举行了一个“Wordcraft 作家研讨会”的合作项目，找来了13位专业作家和文字创作者进行了长期深入的合作，让他们在自己的创作过程中借助 Wordcraft 编辑器来创作短篇小说。

值得注意的是，知名科幻作家刘宇昆（热剧《万神殿》背后的小说作者、《三体》英文版译者）也参与了这一项目。

他在写作过程中遇到了一个场景，需要描述在商店里摆放的各种商品——过去此类写作细节比较容易打乱写作思路，但刘宇昆通过 Wordcraft 的帮助可以直接生成一个列表，节约了自己的脑容量，可以专心去写对故事更重要的东西。

而在另一个场景中，他发现自己的想象力被限制了，一直在重复熟悉的概念。于是他将“主动权”交给了 LaMDA，让它来开头，“这样就能够逼迫我探索一些从未想到过的可能性，发现新的写作灵感。”

你可以在 Wordcraft Writers Workshop 的官方页面（阅读原文按钮）中找到刘宇昆在 Wordcraft 帮助下撰写的短篇小说 Evaluative Soliloquies。顺便，他还借用 Imagen 为小说生成了几张插图：

图片来源：Emily Reif via Imagen

| 超长、连贯性视频的生成，终于被攻破了？

大家对于 AI 文字生成图片应该都不算陌生了。最近一年里，有 DALL·E 2、Midjourney、Stable Diffusion、Craiyon（不分先后）等知名产品问世；而谷歌也有自己的AI 文字转图片模型，并且一做就是两个：Imagen（基于大预言模型和行业流行的扩散模型），和 Parti（基于谷歌自家的 Pathways 框架）。

图片来源：Google Research

尽管今年 AIGC 的热闹都被 Stable Diffusion 这些炸子鸡给抢光了，低调沉稳的谷歌并没有躺平。

当其他人都似乎“阶段性”满足于用文字提示做小图片时，谷歌其实已经在加速往前冲了：它比任何人都更早进入了“文字生成高分辨率视频”，这一从未被探索过的复杂技术领域。

“生成高分辨率，且在时间上连贯的视频，是非常困难的工作，” Google Research 高级研究总监 Douglas Eck 表示。

“不过好在，我们最近有两项研究，Imagen Video 和 Phenaki，可以解决视频生成的问题。”

图片来源：Google Research

你可以这样理解：文字转图片就是根据一段文字提示来生成一张（或者多张平行的图片），而 Imagen Video 和 Phenaki 是可以根据多条文字提示，来生成在时序上连贯的多张照片——也就是视频。

具体来说，Imagen Video 是通过文本生成图像的扩散模型，能够生成具有前所未有真实度的高清画面；同时由于建立在基于 Transformer 技术的大规模语言模型上，它也具备极强的语言理解能力。

而 Phenaki 则是完全通过大语言模型，在时序上不断生成 token 的方式来生成视频。它的优势在于能够生成极长（数分钟）的视频，且画面的逻辑和视觉连贯性更强。

一个蓝色的气球插在红杉树的树枝上

镜头从挂着蓝色气球的树上移到动物园门口

镜头快速移动到动物园内

第一人称视角：在一个美丽的花园内飞行

长颈鹿的头从旁边冒出来

长颈鹿走向一棵树

放大长颈鹿的嘴

长颈鹿靠近树枝，拿起一个蓝色的气球

一个带白线的蓝色气球向长颈鹿的头部飞去

长颈鹿在附近咀嚼蓝气球镜头

随着单个蓝气球的飞走而向上倾斜

“说句实在话，这个项目不是我做的，但我觉得它真的非常令人惊讶。”Eck 表示，这项技术最强大之处，就在于可以使用多条文字提示组成的序列，来生成超高清晰度的视频，带来一种全新的故事讲述的能力。

“当然，AI 视频生成技术还处在襁褓阶段，我们非常期待跟更多影视专业人士以及视觉内容创作者合作，看他们会如何使用这项技术。”

Douglas Eck 图片来源：谷歌

| 无参考音频生成

早年 OpenAI 发布 GPT 初代模型的论文标题很经典：“Language models are few-shot learners”，点出了大语言模型在极少量样本的基础上，就可以在多种自然语言处理类任务上展现出强大的能力——同时，这个标题预言了今后更强大的大语言模型，能够做到更多更厉害的事情。

而今天，谷歌展示的 AudioLM 纯音频模型就验证了这一预言。

图片来源：Google Research

AudioLM 是一个具备“长期连贯性”的高质量音频生成框架，不需要任何文字或音乐符号表示的情况下，只在极短（三四秒即可）的音频样本基础上进行训练，即可生成自然、连贯、真实的音频结果，而且不限语音或者音乐。

用 AudioLM 生成的语句，在句法和语义上仍然保持了较高的可信度和连贯性，甚至能够延续样本中说话人的语气。

更厉害的是，这个模型最初没有用任何音乐数据进行训练，结果却十分惊人：能够从任何乐器或乐曲录音中进行自动“续写”——这一事实，再一次展现出了大语言模型的真正实力。

下面的音频是一段20秒左右的钢琴曲，先听听感受一下：

实际上只有前4秒是给到模型的提示，后面都是 AudioLM自己“补完”的。而且也只有这一段4秒的音频样本，没有“钢琴”、“进行曲”等之类的专业文字提示作为补充。

“你不需要给它提供整段乐曲来学习，只要给它一小段，他就能直接在音乐的空间里开始续写——任何的音频片段都可以，无论是音乐还是语音。”Eck 表示，这种无参考的音频生成能力，早已超出了人们曾经对于 AI 创作能力的认知边界。

| 其他 AIGC 技术、产品

除了上述新技术之外，谷歌还宣布了在其他内容格式上的 AI 内容生成技术。

比如，在二维的图片/视频基础上，谷歌还让文字转 3D 模型成为了现实。通过结合 Imagen 和最新的神经辐射场（Neural Radiance Field）技术，谷歌开发出了DreamFusion 技术可以根据现有的文字描述，生成在具有高保真外观、深度和法向量的 3D 模型，支持在不同光照条件下进行渲染。

图片来源：DreamFusion： Text-to-3D using 2D Diffusion （dreamfusion3d.Github.io）

以及，谷歌在今年 I/O 大会上面向公众推出的尝鲜应用 AI Test Kitchen，也将在近期更新加入 LaMDA 模型创新所解锁的新功能。比如“城市梦想家” （City Dreamer）来用文字命令建造主体城市，或者“Wobble”来创造会扭动的卡通形象等。

用户可以在对应系统的应用商城中下载 AI Test Kitchen，并且前往谷歌网站申请测试资格，实测审批速度挺快。

AI Test Kitchen 支持 IOS 和 Android 系统图片来源：谷歌、苹果

“我们在神经网络架构、机器学习算法和应用于机器学习的硬件新方法方面取得的进展，帮助 AI 为数十亿人解决了重要的现实问题，”Jeff Dean 表示。

“更多的进展即将到来。我们今天分享的是对未来充满希望的愿景：AI 正让我们重新想象技术如何能够带来帮助。”

Tags：AI 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

OpenAI 宣布向 ChatGPT 付费用户开放新 GPT-4 Turbo 模型

IT之家 4 月 12 日消息，OpenAI 今日宣布，新 GPT-4 Turbo 现已向付费 ChatGPT 用户开放。与 1 月份相比，新版本提高了写作、数学、逻辑推理和编码的能力。GPT-4 Turbo 可在 Chat...【详细内容】

2024-04-12　　Search: AI 点击:(2)　　评论:(0)　　加入收藏

Kyligence发布企业级AI解决方案！AI数智助理降低数据使用门槛

智东西作者 | 长颈鹿编辑 | 李水青智东西4月12日报道，昨日大数据分析和指标平台供应商Kyligence（硅智信息）召开了数智论坛暨春季发布会，并分享和探讨Data+AI产品及解决方案在金...【详细内容】

2024-04-12　　Search: AI 点击:(3)　　评论:(0)　　加入收藏

百度Create AI剧透：“三大开发神器”升级，模型增至77个，三步即可生成应用

智东西（公众号：zhidxcom）作者| 香草编辑| 李水青智东西4月11日报道，今日，在百度Create AI开发者大会预沟通会上，百度披露了“三大开发神器”AgentBuilder、AppBuilder、ModelBuild...【详细内容】

2024-04-12　　Search: AI 点击:(3)　　评论:(0)　　加入收藏

没有OpenAI任何股份，奥特曼靠投资也身价数十亿

　　在最新的福布斯与彭博社亿万富翁排行榜上，OpenAI联合创始人兼CEO奥特曼（Sam Altman）个人资产超过了20亿美元。这也是这位创业新贵首次进入十亿美元级别的亿万富翁行列，然而...【详细内容】

2024-04-12　　Search: AI 点击:(2)　　评论:(0)　　加入收藏

AI未来或超越“最聪明的人”？专家谈发展如何兼顾公平

中新社北京4月11日电 (记者马帅莎)到明年底或2026年，人工智能(AI)或超越“最聪明的人”，美国知名企业家埃隆·马斯克近日对人工智能的这一大胆猜想引起关注，这比他去年...【详细内容】

2024-04-12　　Search: AI 点击:(3)　　评论:(0)　　加入收藏

网络渠道“眼见”不一定为实防范“AI换脸”诈骗行为

防范“AI换脸”诈骗行为本报记者屈信明《人民日报》( 2024年04月12日第 19 版)近年来，多个行业创新人工智能技术应用场景，银行智能机器人、虚拟主持人等为社会公众提供了...【详细内容】

2024-04-12　　Search: AI 点击:(2)　　评论:(0)　　加入收藏

Meta推出新版自研AI芯片：性能较上代提高三倍，降低对英伟达依赖

AI（人工智能）芯片紧缺之际，越来越多科技巨头选择自行研发。当地时间4月10日，社交巨头Meta公布了自主研发芯片MTIA的最新版本。MTIA是Meta专门为AI训练和推理工作设计的定制芯片...【详细内容】

2024-04-11　　Search: AI 点击:(1)　　评论:(0)　　加入收藏

英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电

新华财经上海4月11日电当地时间4月9日，英特尔在Vision 2024客户和合作伙伴大会上宣布推出最新AI芯片产品Gaudi 3加速器。英特尔称，相比英伟达的H100 GPU，Gaudi3 AI芯片的模型...【详细内容】

2024-04-11　　Search: AI 点击:(5)　　评论:(0)　　加入收藏

AI“复活”亲人成生意，哪些红线待划定？

提供一张照片、一段10多秒的音频，即可让逝者在视频中“活”过来——AI“复活”亲人成生意，哪些红线待划定？本报记者陶稳《工人日报》(2024年04月11日 06版)阅读提示...【详细内容】

2024-04-11　　Search: AI 点击:(2)　　评论:(0)　　加入收藏

全球十大独角兽发布：字节稳坐第一，SpaceX第二，OpenAI第三

鞭牛士报道，4月10日消息，根据胡润《2024 年全球独角兽指数》，TikTok 所有者字节跳动以 1.56 万亿元人民币（1.72 万亿港元）连续第三年成为全球最大的独角兽公司。SpaceX 以 1.28...【详细内容】

2024-04-10　　Search: AI 点击:(2)　　评论:(0)　　加入收藏

▌简易百科推荐

ChatGPT 应用商店？可能是一个万能应用程序！

OpenAI 在去年 11 月召开了一次开发者大会，首席执行官 Sam Altman 希望软件制造商在 ChatGPT 之上进行进一步的构建。OpenAI 表示，它将很快推出一个市场，开发人员和非技术人员...【详细内容】

2024-04-12　　视角先锋队　　　　Tags:ChatGPT 　点击:(3)　　评论:(0)　　加入收藏

Kyligence发布企业级AI解决方案！AI数智助理降低数据使用门槛

2024-04-12　　　　智东西　　Tags:Kyligence 　点击:(3)　　评论:(0)　　加入收藏

百度Create AI剧透：“三大开发神器”升级，模型增至77个，三步即可生成应用

2024-04-12　　　　智东西　　Tags:Create AI 　点击:(3)　　评论:(0)　　加入收藏

李彦宏最新内部讲话：开源大模型不如闭源，后者会持续领先

界面新闻记者 | 李如嘉界面新闻编辑 | 宋佳楠4月11日，界面新闻获悉，百度创始人、董事长兼首席执行官李彦宏在一场内部讲话中首次谈及文心大模型为何不开源，以及对于大模型开源...【详细内容】

2024-04-12　　　　界面　　Tags:李彦宏　点击:(2)　　评论:(0)　　加入收藏

AI未来或超越“最聪明的人”？专家谈发展如何兼顾公平

2024-04-12　　　　中国新闻网　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

行业大模型快速落地的一年，如何做？

生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一...【详细内容】

2024-04-10　　　　钛媒体APP　　Tags:行业大模型　点击:(3)　　评论:(0)　　加入收藏

互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

早前，一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主，向用户大力推介“所有人都需要学”的AI入门课程。不过，这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】

2024-04-10　　　　九派新闻　　Tags:AI课　点击:(9)　　评论:(0)　　加入收藏

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(4)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(4)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(4)　　评论:(0)　　加入收藏

推荐资讯

早高峰打“飞的”有多	JavaScript的异步编程
Rust编程语言的内存安	数字人破解跨境直播难
Meta确认5月发布Llama	ChatGPT 应用商店？可能
社交网络与Web3：数字社	速查微信聊天最频繁对