您当前的位置：首页 > 电脑百科 > 人工智能

一文盘点2023人工智能进展，不止大模型而已

时间：2023-11-16 11:59:59 来源：量子位作者：

+ 加入收藏

西风发自凹非寺

量子位 | 公众号 QbitAI

2023年大模型千帆竞发，除此外AI领域还有哪些新突破？

来来来，畅销书《Python/ target=_blank class=infotextkey>Python机器学习》作者Sebastian Raschka的年末总结已经准备好了。

一文盘点2023人工智能进展，不止大模型而已

看完才知道：

RLHF今年虽然爆火，但实打实用到的模型并不多，现在还出现了替代方案，有望从开源界“出圈”；

大模型透明度越来越低，透明度最高的是Llama 2，但得分也仅有54；

开源模型下一步不一定是“更大”，混合专家模型（MoE）可能是个突破点。

……

除了大语言模型，Sebastian Raschka还根据CVPR 2023打包了计算机视觉进展，最后还讲到了AI当前的一些局限性、以及对2024年的技术预测。

走过路过的网友们纷纷表示总结得很到位：

△机器翻译，仅供参考

下面我们一起来看看这份年度总结里都有啥。

2023 AI爆点：大语言模型

今年，大模型领域似乎没有出现实质性的创新技术，更多是基于去年的扩展：

……

ChatGPT（GPT-3.5）升级到GPT-4
DALL-E 2升级到DALL-E 3
Stable Diffusion 2.0升级到Stable Diffusion XL

但学界业界依旧忙得热火朝天，一些新趋势、新内容总结如下——

重要AI模型论文信息量骤减

首先，是业界研究者在论文中公开的研究细节越来越少。

OpenAI此前在GPT-1、GPT-2、GPT-3、InstructGPT的论文中，还详尽披露了模型架构和训练过程；

但从GPT-4开始，OpenAI完全不提构建过程。

唯一不知真假的GPT-4架构信息，来源于坊间传闻：

GPT-4是由16个子模块构成的混合专家（MoE）模型，每个子模块拥有高达1110亿参数……

Meta亦是如此，在第一篇Llama论文中详细阐述了训练数据集，但Llama 2完全没提相关内容。

即便如此，Llama 2已经是一众大模型中最公开的了。斯坦福大学最近发布了一项关于大模型透明度指数的研究，Llama 2得分54，透明度排第一，GPT-4得分48，排第三。

一文盘点2023人工智能进展，不止大模型而已

虽然模型细节算是公司商业机密，但Sebastian Raschka认为这种趋势还是值得关注，因为它似乎会在2024持续。

大模型开卷上下文长度

今年大语言模型的另一个趋势是扩展输入的上下文长度。

此前GPT-4上下文长度还是32k时，竞品Claude 2就将上下文推进到100k tokens，且支持PDF文件输入。

随后GPT-4大更新，新版本GPT-4 Turbo刷新上下文长度纪录，已支持128k tokens。

一些编程工具，如Github Copilot，也在不断增加上下文窗口长度。

一文盘点2023人工智能进展，不止大模型而已

开源大模型比拼“小而美”

用更小的模型比肩大模型的性能，是开源圈的“新玩法”。

目前，多数现有开源大模型仍然是纯文本模型。

这些模型研究重点之一，是用小于100B参数的“小模型”对标GPT-4的文本处理能力。

甚至出现了很多可以单GPU运行的小模型，例如1.3B的phi1.5、7B的Mistral、7B的Zephyr。

Sebastian Raschka认为，开源模型的下一个突破点不一定是“更大”，或许MoE也可能把开源模型提升到新的高度。

这么做可能是考虑硬件资源成本、数据量、开发时间等因素。

但也有值得关注的开源多模态大模型，例如10月17日刚发布的Fuyu-8B。

一文盘点2023人工智能进展，不止大模型而已

Fuyu-8B在处理图像时，直接将图像切成小块，然后把这些小块输入到一个线性投影层，在这一层里面自动学习小块的向量表示，避免用额外的预训练编码器来提取图像特征，简化了模型架构和训练过程。

同时，Llama-Adapter v1、Llama-Adapter v2等微调方法的出现，有望将现有的大模型扩展到多模态领域。

一文盘点2023人工智能进展，不止大模型而已

RLHF平替已出现

RLHF（人类反馈强化学习）是大模型最受关注的技术之一，InstructGPT、ChatGPT、Llama 2中都用到了这种训练方法。

一文盘点2023人工智能进展，不止大模型而已

但分析公司stateof.ai发布的“2023AI现状报告”中显示，它还没有被广泛运用，可能是因为实现起来比较复杂。目前大多开源项目仍然专注于指令微调。

一文盘点2023人工智能进展，不止大模型而已

不过，RLHF的最新替代方案已经出现：直接偏好优化（DPO）。

这一方法由斯坦福大学研究团队提出。

DPO利用奖励函数到最优策略之间的映射关系，把强化学习问题转变成仅需要训练策略网络来拟合参考数据的问题。

也就是绕过了建模奖励函数，直接在偏好数据上优化语言模型。

用上DPO后，模型输出的质量也优于RLHF/PPO。

一文盘点2023人工智能进展，不止大模型而已

最近首个用DPO方法训练的开源大模型已出现，来自HuggingFace H4团队打造的Zephyr-7B，它在一些任务上已超过用RLHF训练的Llama 2-70B：

一文盘点2023人工智能进展，不止大模型而已

Transformer潜在新对手

今年还出现了一些Transformer的替代方案，比如循环RWKV、卷积Hyena。

一文盘点2023人工智能进展，不止大模型而已

这些新的框架主要是用来提高模型效率，当然基于Transformer架构的大语言模型仍是主流。

大模型改变生产方式

大模型除了用来处理文本，也逐渐被用到提升生产力（Microsoft全家桶）和写代码（GitHub Copilot）等场景中。

Ark-Invest曾发布报告预测，编程助手能让编码任务的完成时间缩短约55%。

一文盘点2023人工智能进展，不止大模型而已

可以肯定，编码助手将继续存在，而且只会变得更好。

这对Stack Overflow（全球知名开发者问答网站）等平台意味着什么？

同样是“2023 AI现状报告”中，一张StackOverflow与GitHub的网站流量对比图，可以说明一些问题：

一文盘点2023人工智能进展，不止大模型而已

OK，以上就是大模型的一些新进展。

不过对于AI的“另半边天”计算机视觉而言，在2023年，这个领域也有许多不可忽视的新进展。

计算机视觉怎么样了？

今年大家都在重点关注大语言模型，但实际上，计算机视觉领域也取得了不少进展，从计算机视觉顶会CVPR 2023中就可以窥见一斑。

今年CVPR 2023共接收了2359篇论文，大多数研究都集中于以下4个主题，Sebastian Raschka逐个进行了介绍。

视觉Transformer突破限制

先来看看关注度最高的视觉Transformer。

效仿已取得巨大成功的语言Transformer架构，视觉Transformer（ViT）最初在2020年出现。

视觉Transformer原理与语言Transformer类似，是在多头注意力块中使用相同的自注意力机制。

不同的是，视觉Transformer不标记单词，而是标记图像，同样能取得不错的效果，但它一直有一个局限：相对资源密集且效率低于CNN，导致实际应用受阻。

今年在CVPR论文“EfficientViT：Memory Efficient Vision Transformer with Cascaded Group Attention”中，研究人员介绍了一种新的高效架构来解决这一限制——

相比原来的MobileViT，EfficientViT方法最多快了6倍。

一文盘点2023人工智能进展，不止大模型而已

主要创新点有两个，一是全连接层之间的单个内存绑定多头自注意力模块，二是级联群注意力。

扩散模型又有新玩法

Stable Diffusion让扩散模型爆火，这类模型所用的方法是：

模型训练时，逐渐往训练数据中掺入噪声，直到变成纯噪声。然后再训练一个神经网络，让模型反向学习去噪，从噪声中合成数据。

大多数扩散模型使用CNN架构并采用基于CNN的U.NET。

但今年“All are Worth words：A ViT Backbone for Diffusion Models”这项研究中，研究人员试图将扩散模型中的卷积U-Net骨干（backbone）与ViT交换，变成U-ViT。

研究人员评估了新架构，在条件图像生成任务中，新的U-ViT扩散模型可与最好的GAN相媲美，优于其它扩散模型；在文本到图像生成方面，它优于在同一数据集上训练的其它模型。

3D重建新方法击败NeRF

3D重建是计算机视觉的研究重点之一，在3D扫描、虚拟现实、增强现实、电影和视频游戏中的3D建模和动作捕捉中都有运用。

今年SIGGRAPH 2023最佳论文中，有一篇被称为三维重建领域“爆炸性”新技术——Gaussian Splatting（高斯溅射）。

一举突破NeRF与之前的渲染引擎难兼容、需要专门设计硬件、渲染开销的老大难问题。

一文盘点2023人工智能进展，不止大模型而已

这种方法的核心是使用3D高斯作为场景表示，通过优化各向异性协方差矩阵来表示复杂场景。

论文还提出了交错的3D高斯参数优化和自适应密度控制方法，设计了快速、可微分的GPU栅格化方法，支持各向异性斑点，并实现快速反向传播，可以达到高质量的新视图合成，而且实现了首个1080p分辨率下的实时渲染。

只用很少的训练时间，Gaussian Splatting可以达到InstantNGP的最高质量，训练51分钟，性能甚至比Mip-NeRF360要好。

最近，华中科技大学&华为研究团队又继续提出了4D Gaussian Splatting。

一文盘点2023人工智能进展，不止大模型而已

4D Gaussian Splatting实现了实时的动态场景渲染，同时可保持高效的训练和存储效率。

在RTX 3090 GPU上，4D Gaussian Splatting以800×800分辨率达到70 FPS的性能，同时保持了与之前的最先进方法相媲美甚至更高的质量水平。

这项研究一出，网友沸腾直呼：

彻底改变三维重建。

当然，Sebastian Raschka也分享了CVPR上一些NeRF（Neural Radiance Fields）方法的新进展。

NeRF主要是通过训练神经网络来学习场景中每个点的颜色和密度，然后使用这些信息来生成逼真的3D场景渲染图像。

但NeRF有一个缺点是：有光泽的物体通常看不清，半透明物体的颜色也很模糊。

在“ABLE-NeRF：Attention-Based Rendering with Learnable Embeddings for Neural Radiance Field”这项研究中，研究人员通过引入基于自注意力的框架和可学习的嵌入解决这一问题，并提高了半透明和光泽表面的视觉质量。

一文盘点2023人工智能进展，不止大模型而已

目标检测和分割

目标检测和分割是经典的计算机视觉任务。

这两个任务还是有区别的，目标检测是关于预测边界框和相关标签，分割是对每个像素进行分类，来区分前景和背景。

△目标检测（左）和分割（右）

此外还可以细分为语义分割、实例分割、全景分割三个类别。

一项名为“Mask DINO：Towards A Unified Transformer based Framework for Object Detection and Segmentation”的研究，扩展了DINO方法。

Mask DINO性能优于所有现有的物体检测和分割系统。

DINO是一种带有改进去噪锚盒的DETR，而DETR是Facebook AI提出的一种端到端目标检测模型，它使用了Transformer架构，提供了一种更简单灵活的目标检测方法。

AI局限&展望未来

虽然AI领域这一年来取得了诸多进展，但依旧存在一些局限性，主要包括以下几点：

1、大模型幻觉

大语言模型依然存在着生成有毒内容和幻觉的问题。

今年出现了不少解决方案，包括RLHF和英伟达推出的NeMO Guardrails等，但这些方案要么难实施，要么处理得不到位。

一文盘点2023人工智能进展，不止大模型而已

目前为止，还没有找到一个可靠的方法，既能解决这一问题又不损害大模型的正向性能。

2、版权争议

与此同时，AI领域版权争议日益严峻。

各大模型厂商没少被起诉，之前开源数据集Books3也因侵权问题惨遭下架，Llama、GPT-J等都用它训练过。

总的来看，很多相关规定还在起草和修改过程中。

3、评估标准不统一

学术研究领域，基准测试和排名榜单可能已经失效是个问题。

用于测试的数据集可能已经泄露，成为了大语言模型的训练数据。

虽然通过询问人类偏好来评估大模型的效果是一个普遍的方法，但这种方式较为复杂。

还有许多研究报告使用GPT-4来评估。

一文盘点2023人工智能进展，不止大模型而已

4、收益尚不明确

生成式AI还在探索阶段，虽然无论是文本还是图像生成工具，在特定场景下确实能给人们提供帮助。

但这些工具是否真的能给公司带来收益，尤其是在高昂的运行成本面前，业界还在激烈讨论。

有报道称，OpenAI去年的运营亏损了5.4亿美元。直到最近又有消息指出，OpenAI现在每月能赚取8000万美元，有望弥补或甚至超出它的运营开支。

5、虚假图像泛滥

生成式AI带来的另一个问题是假图片和视频在社交媒体泛滥。

这个问题由来已久，PS等工具也能，而AI技术简易快捷，正在将此现象推向一个新的高度。

目前也有其它AI系统尝试自动识别AI产生的内容，但无论是文本、图片还是视频，这些系统的可靠性都不高。

6、数据集稀缺

涉及版权等争议，不少公司（Twitter/X、Reddit等）关闭了免费的API接入点，这样做既是为了增加收益，也是为了阻止数据采集器搜集平台数据用于AI训练。

之后一个好的方法可能是，建立一个众包数据集的平台，编写、收集和整理那些已经明确允许用于LLM训练的数据集。

展望2024，Sebastian Raschka认为大语言模型会在计算机科学之外的STEM研究领域发挥更大影响。

另一方面，由于高性能GPU紧缺，各大公司纷纷开发定制的AI芯片，问题关键在于怎样让这些硬件全面、稳定支持主流深度学习框架。

开源界，更多MoE（专家模型）也值得期待，共同创建数据集、DPO在开源模型中取代传统监督式微调也都是未来式。

Sebastian Raschka是谁？

Sebastian Raschka于2017年获得密歇根州立大学博士学位，曾是威斯康星大学麦迪逊分校统计学助理教授。

2022年Sebastian Raschka离职，加入初创公司Lightning AI成为其首席AI教育官。

此外，他还是包括《Python机器学习》在内的多本畅销书的作者。

一文盘点2023人工智能进展，不止大模型而已

他经常在自己的AI博客Ahead of AI中总结AI领域的各项研究，已揽获大波粉丝。

一文盘点2023人工智能进展，不止大模型而已

参考链接：

[1]https://magazine.sebastianraschka.com/p/ai-and-open-source-in-2023

[2]https://magazine.sebastianraschka.com/p/ahead-of-ai-10-state-of-computer

[3]https://twitter.com/dotey/status/1721204481369498004

— 完—

Tags：人工智能点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　Search: 人工智能点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　Search: 人工智能点击:(7)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　Search: 人工智能点击:(6)　　评论:(0)　　加入收藏

关于AI人工智能在写作方面有哪些优势？

随着科技的快速发展，AI人工智能已逐渐渗透到我们生活的方方面面，其中在写作领域的应用也愈发广泛。AI人工智能在写作方面的优势不仅体现在其高效、精准的处理能力上，还体现在其...【详细内容】

2024-03-27　　Search: 人工智能点击:(17)　　评论:(0)　　加入收藏

生成式人工智能在搜索引擎优化（SEO）中的应用顶级案例

原文作者 | Rahul Solanki生成式人工智能正在迅速改变搜索引擎优化 (SEO) 的工作方式。这些新时代的语言模型和机器学习系统不仅可以研究大量信息，还可以理解上下文和含义，并...【详细内容】

2024-03-27　　Search: 人工智能点击:(9)　　评论:(0)　　加入收藏

苹果手机将搭载百度AI技术？百度人工智能A股小伙伴有这些

财联社3月24日讯（编辑若宇俞琪）据华尔街日报周五晚间报道，苹果在中国寻找本土生成式AI提供方，苹果讨论了在中国的设备中使用百度的人工智能技术。受该利好消息刺激，百度美股周...【详细内容】

2024-03-26　　Search: 人工智能点击:(9)　　评论:(0)　　加入收藏

“AI骗局”横行人工智能安全亟待加码

人工智能的“双刃剑”效应日益明显。AI技术在引发科技变革、提升生产力和效率等方面展现了充分的潜力，但与此同时，它带来的安全隐患也越来越凸显。利用深度伪造制造假象、操纵...【详细内容】

2024-03-22　　Search: 人工智能点击:(7)　　评论:(0)　　加入收藏

马斯克旗下人工智能大模型Grok已正式开源

鞭牛士报道，3月18日消息，据外电报道，埃隆·马斯克 (Elon Musk) 的人工智能初创公司 xAI 迈出了重大一步，开源了其大型语言模型 (LLM) Grok。这意味着企业家、程序员、公司...【详细内容】

2024-03-18　　Search: 人工智能点击:(13)　　评论:(0)　　加入收藏

《2024人工智能安全报告》：2023年AI深度伪造欺诈增长30倍

近日，奇安信集团发布《2024人工智能安全报告》（以下简称《报告》）。《报告》显示，2023年基于AI的深度伪造欺诈增长了3000％，基于AI的钓鱼邮件增长了1000％；目前已发现多个有国家背景的...【详细内容】

2024-03-18　　Search: 人工智能点击:(21)　　评论:(0)　　加入收藏

里程碑式《人工智能法案》问世几无悬念

作者丨吴斌编辑丨李莹亮图源丨图虫在人工智能“野蛮生长”之际，欧洲议会通过了首个全面监管人工智能的法规。当地时间3月13日，欧洲议会以523票赞成、46票反对、49票弃权通...【详细内容】

2024-03-18　　Search: 人工智能点击:(18)　　评论:(0)　　加入收藏

▌简易百科推荐

多方热议人工智能产业新机遇

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(4)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(7)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　　　第一财经网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

2024-04-03　　品谈教师帮　　　　Tags:人工智能　点击:(6)　　评论:(0)　　加入收藏

AI世界的新难题：互联网的信息不够用了！

高质量数据的紧缺正成为AI发展的重要障碍。4月1日，据媒体报道，随着OpenAI、Google等企业不断深入发展AI技术，科技巨头们遇到了一个新问题：现有的互联网信息量可能不足以支撑他们...【详细内容】

2024-04-02　　硬AI　　　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

今天起，ChatGPT无需注册就能用了！

　来源：量子位　　　　金磊克雷西发自凹非寺　　就在刚刚，OpenAI狠狠地open了一把：从今天起，ChatGPT打开即用，无需再注册帐号和登录了！　　像这样，直接登录网站，然后就可以开启对...【详细内容】

2024-04-02　　　　量子位　　　Tags:ChatGPT 　点击:(7)　　评论:(0)　　加入收藏

AI时代，面对死亡有了第二种选择？

今年春节期间，罗佩玺瞒着妈妈用AI技术“复活”了外婆，她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年，妈妈和外婆终于又“见面”了，这是她送给妈妈的生日礼物。收...【详细内容】

2024-04-02　　　　中国青年报　　Tags:AI时代　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版

站内最新

栏目相关

· 多方热议人工智能产业新机遇

· 人形机器人时代来了吗

· AI重塑社交：腾讯与字节跳动的新赛场

· 第一批用 Kimi 做内容的网红已经杀疯了

· 昆仑万维发布面向人工智能时代的六条人才宣言

· AI干掉声优？音频大模型追逐“图灵时刻”

· 生成式人工智能有哪些新趋势？

· AI世界的新难题：互联网的信息不够用了！

· 今天起，ChatGPT无需注册就能用了！

· AI时代，面对死亡有了第二种选择？

· 影视业AI应用如何超乎想象？

· 当AI会作词作曲唱歌，音乐人何去何从

· 大模型Kimi火了，长文本“卷”出新高度

· 把GPT变成算命大师需要几步？

· Sora开启文生视频新纪元影视游戏产业加速变局求突破

· 微软新 AI 专利获批：帮老板追踪、评估你的工作表现

· 关于AI人工智能在写作方面有哪些优势？

· Sora超逼真视频引恐慌！Nature刊文警示AI视频模型，或在2024年颠覆科学和社会

· 8款AI视频生成产品实测，谁将成为中国Sora？

· Sora到底怎么样？第一批试用者这样说！

站内热门