您当前的位置：首页 > 新闻资讯 > 科技

碾压LLaMA，「猎鹰」彻底开源！400亿参数，万亿token训练，霸榜Hugging Face

时间：2023-06-02 14:32:14 来源：作者：新智元

+ 加入收藏

新智元报道

编辑：润拉燕

【新智元导读】来自阿联酋的免费商用开源大模型登顶Hagging Face排行榜，AI大模型创业者的春天就这样到来了。

大模型时代，什么最重要？

LeCun曾经给出的答案是：开源。

当Meta的LLaMA的代码在Github上被泄露时，全球的开发者们都可以访问这个第一个达到GPT水平的LLM。

接下来，各种各样的LLM给AI模型开源赋予了各种各样的角度。

LLaMA给斯坦福的Alpac和Vicuna等模型铺设了道路，搭好了舞台，让他们成为了开源的领头羊。

而就在此时，猎鹰「Falcon」又杀出了重围。

Falcon 猎鹰

「Falcon」由阿联酋阿布扎比的技术创新研究所（TII）开发，从性能上看，Falcon比LLaMA的表现更好。

目前，「Falcon」有三个版本——1B、7B和40B。

TII表示，Falcon迄今为止最强大的开源语言模型。其最大的版本，Falcon 40B，拥有400亿参数，相对于拥有650亿参数的LLaMA来说，规模上还是小了一点。

规模虽小，性能能打。

先进技术研究委员会(ATRC)秘书长Faisal Al Bannai认为，「Falcon」的发布将打破LLM的获取方式，并让研究人员和创业者能够以此提出最具创新性的使用案例。

FalconLM的两个版本，Falcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前两名，而Meta的LLaMA位于第三。

值得一提的是，Hugging Face是通过四个当前比较流形的基准——AI2 Reasoning Challenge，HellaSwag，MMLU和TruthfulQA对这些模型进行评估的。

尽管「Falcon」的论文目前还没公开发布，但Falcon 40B已经在经过精心筛选的1万亿token网络数据集的上进行了大量训练。

研究人员透露，「Falcon」在训练过程非常重视在大规模数据上实现高性能的重要性。

我们都知道的是，LLM对训练数据的质量非常敏感，这就是为什么研究人员会花大量的精力构建一个能够在数万个CPU核心上进行高效处理的数据管道。

目的就是，在过滤和去重的基础上从网络中提取高质量的内容。

目前，TII已经发布了精炼的网络数据集，这是一个经过精心过滤和去重的数据集。实践证明，非常有效。

仅用这个数据集训练的模型可以和其它LLM打个平手，甚至在性能上超过他们。这展示出了「Falcon」卓越的质量和影响力。

此外，Falcon模型也具有多语言的能力。

它理解英语、德语、西班牙语和法语，并且在荷兰语、意大利语、罗马尼亚语、葡萄牙语、捷克语、波兰语和瑞典语等一些欧洲小语种上也懂得不少。

Falcon 40B还是继H2O.ai模型发布后，第二个真正开源的模型。然而，由于H2O.ai并未在此排行榜上与其他模型进行基准对比，所以这两个模型还没上过擂台。

而回过头看LLaMA，尽管它的代码在GitHub上可以获取，但它的权重（weights）从未开源。

这意味着该模型的商业使用受到了一定程度的限制。

而且，LLaMA的所有版本都依赖于原始的LLaMA许可证，这就使得LLaMA不适合小规模的商业应用。

在这一点上，「Falcon」又拔得了头筹。

唯一免费的商用大模型！

Falcon是目前唯一的可以免费商用的开源模型。

在早期，TII要求，商业用途使用Falcon，如果产生了超过100万美元以上的可归因收入，将会收取10%的「使用税」。

可是财大气粗的中东土豪们没过多长时间就取消了这个限制。

至少到目前为止，所有对Falcon的商业化使用和微调都不会收取任何费用。

土豪们表示，现在暂时不需要通过这个模型挣钱。

而且，TII还在全球征集商用化方案。

对于有潜力的科研和商业化方案，他们还会提供更多的「训练算力支持」，或者提供进一步的商业化机会。

项目提交邮箱：Submissions.falconllm@tii.ae

这简直就是在说：只要项目好，模型免费用！算力管够！钱不够我们还能给你凑！

对于初创企业来说，这简直就是来自中东土豪的「AI大模型创业一站式解决方案」。

高质量的训练数据

根据开发团队称，FalconLM 竞争优势的一个重要方面是训练数据的选择。

研究团队开发了一个从公共爬网数据集中提取高质量数据并删除重复数据的流程。

在彻底清理多余重复内容后，保留了 5 万亿的token——足以训练强大的语言模型。

40B的Falcon LM使用1万亿个token进行训练， 7B版本的模型训练token达到 1.5 万亿。

（研究团队的目标是使用RefinedWeb数据集从Common Crawl中仅过滤出质量最高的原始数据）

更加可控的训练成本

TII称，与GPT-3相比，Falcon在只使用75%的训练计算预算的情况下，就实现了显著的性能提升。

而且在推断（Inference）时只需要只需要20%的计算时间。

Falcon的训练成本，只相当于Chinchilla的40%和PaLM-62B的80% 。

成功实现了计算资源的高效利用。

参考资料：

https://analyticsindiamag.com/open-source-ai-has-a-new-champion/

Tags：猎鹰点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

碾压LLaMA，「猎鹰」彻底开源！400亿参数，万亿token训练，霸榜Hugging Face

新智元报道编辑：润拉燕【新智元导读】来自阿联酋的免费商用开源大模型登顶Hagging Face排行榜，AI大模型创业者的春天就这样到来了。大模型时代，什么最重要？LeCun曾经给出的答案...【详细内容】

2023-06-02　　Search: 猎鹰点击:(99)　　评论:(0)　　加入收藏

HKC猎鹰系列VG273U显示器评测

手拿最新的12代处理器、z690主板、DDR5内存，带的却是GTX1060和1080P 60Hz的显示器，这大概就这两年许多游戏玩家的现状。抱着再等等看的心态，一等再等，就等到了现在。　　好在，40...【详细内容】

2022-08-02　　Search: 猎鹰点击:(463)　　评论:(0)　　加入收藏

京东数科旗下晴空猎鹰大数据舆情监测系统正式上线！

据第44次《中国互联网络发展状况统计报告》统计显示，截至2019年6月，我国网民规模达8.54亿人。在网民数量已突破8亿的大环境下，互联网已逐渐成为思想文化信息的集散地和社会舆论...【详细内容】

2020-04-27　　Search: 猎鹰点击:(648)　　评论:(0)　　加入收藏

▌简易百科推荐

英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电

新华财经上海4月11日电当地时间4月9日，英特尔在Vision 2024客户和合作伙伴大会上宣布推出最新AI芯片产品Gaudi 3加速器。英特尔称，相比英伟达的H100 GPU，Gaudi3 AI芯片的模型...【详细内容】

2024-04-11　　　　上海证券报　　Tags:英特尔　点击:(2)　　评论:(0)　　加入收藏

AI“复活”亲人成生意，哪些红线待划定？

提供一张照片、一段10多秒的音频，即可让逝者在视频中“活”过来——AI“复活”亲人成生意，哪些红线待划定？本报记者陶稳《工人日报》(2024年04月11日 06版)阅读提示...【详细内容】

2024-04-11　　　　工人日报　　Tags:AI 　点击:(2)　　评论:(0)　　加入收藏

谷歌推出适用于安卓设备的“查找我的设备”网络

IT之家 4 月 9 日消息，谷歌今日推出了适用于安卓设备的“查找我的设备”网络，其功能类似于苹果的“查找”网络，旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到，与苹果的“...【详细内容】

2024-04-09　　　　IT之家　　Tags:安卓　点击:(2)　　评论:(0)　　加入收藏

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

2026年的数据荒越来越近，硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天AI忽然吐出了我们的...【详细内容】

2024-04-09　　　　新智元　　Tags:硅谷　点击:(2)　　评论:(0)　　加入收藏

谷歌搜索史上最大变革！考虑对AI搜索收费

快科技4月7日消息，据国外媒体报道，谷歌正计划对由生成式人工智能驱动的新高级功能收费，这将是谷歌搜索业务历史上最大的一次变革。自2000年以来，谷歌的搜索产品一直依靠广告盈利...【详细内容】

2024-04-08　　　　快科技　　Tags:谷歌搜索　点击:(8)　　评论:(0)　　加入收藏

为训练AI，OpenAI等科技巨头花式淘数据

[环球时报特约记者甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频，形成对话文本数据，供其最新的AI学习...【详细内容】

2024-04-08　　　　环球网　　Tags:AI 　点击:(9)　　评论:(0)　　加入收藏

训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

全网真的无数据可用了！外媒报道称，OpenAl、Anthropic等公司正在努力寻找足够的信息，来训练下一代人工智能模型。前几天，OpenAI和微软被曝出正在联手打造超算「星际之门」，解决算...【详细内容】

2024-04-08　　　　新智元　　Tags:GPT-5 　点击:(2)　　评论:(0)　　加入收藏

当“机器人”有了“AI大脑” 人形机器人时代来了吗

数智风向标当“机器人”有了“AI大脑”人形机器人时代来了吗简单明了的口令下达后，机器人便开始搬箱子、运小球，在各类不同的地形行走……这些身上布满芯片和传...【详细内容】

2024-04-08　　　　中国青年报　　Tags:机器人　点击:(5)　　评论:(0)　　加入收藏

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到...【详细内容】

2024-04-07　　　　IT之家　　Tags:OpenAI 　点击:(7)　　评论:(0)　　加入收藏

量子计算会和经典计算一样融入人们的日常生活

作为2024中国网络媒体论坛打造的创新活动之一，“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场，本源量子计算科技（合肥）股份有限公司（以下简称“...【详细内容】

2024-04-03　　　　人民网　　Tags:量子计算　点击:(8)　　评论:(0)　　加入收藏

推荐资讯

网易再牵暴雪的手，实际	注意！密码、验证码都没
将他人商标设为搜索关	打破刚兑：投资者还能相
拜登坐不住了？罕见对美	黄金狂飙如何影响人民
重新审视2008年全球金	京东掷10亿现金扶持达

站内最新

栏目相关

· 英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电

· AI“复活”亲人成生意，哪些红线待划定？

· 谷歌推出适用于安卓设备的“查找我的设备”网络

· 你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

· 谷歌搜索史上最大变革！考虑对AI搜索收费

· 为训练AI，OpenAI等科技巨头花式淘数据

· 训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

· 当“机器人”有了“AI大脑” 人形机器人时代来了吗

· 报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

· 量子计算会和经典计算一样融入人们的日常生活

· ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

· 谷歌为了结集体诉讼，同意删除 Chrome 无痕模式下收集的用户数据

· 哥伦比亚大学华人开发「人脸机器人」，照镜子自主模仿人类表情超逼真

· 谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录

· GPT商店热度不尽人意仅用在写论文和炒股票上较受欢迎

· 距实现全球安全量子通信更近一步：量子点源产生近乎完美纠缠光子对

· 中国三大运营商共同发布通过GSMA Open Gateway认证的一次性密码 API

· 马斯克脑机接口再造奇迹：瘫痪小伙意念玩赛车击败正常人

· 国家数据局局长刘烈宏：充分发挥数据要素价值培育新质生产力

· 谷歌Chrome巨变：第三方Cookie的终结将重塑互联网格局

站内热门