Meta 开源多语言大模型，可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半

时间：2023-05-31 14:05:56 来源：作者：InfoQ

作者 | 李冬梅、核子可乐

近日，Meta 在 Github 上开源了一款全新的 AI 语言模型—— Massively Multilingual Speech ( MMS，大规模多语种语音) ，它与 ChatGPT 有着很大的不同，这款新的语言模型可以识别 4000 多种口语并生成 1100 多种语音（文本到语音）。发布短短几天，该项目已经在 GitHub 库收获了 25.4k Star，Fork 数量高达 5.7k。

论文地址：https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/

博客地址：https://ai.facebook.com/blog/multilingual-model-speech-recognition/

代码 / 模型：https://github.com/facebookresearch/fairseq/tree/main/examples/mms

1Meta 开源能识别 4000 多种语言的语音大模型

与大多数已公开发布的 AI 项目一样，Meta 这次也毫无意外地将 MMS 项目开源出来，希望保护语言多样性并鼓励研究人员在此基础之上构建其他成果。Meta 公司写道，“我们公开分享这套模型和相关代码，以便研究领域的其他参与者能在我们的工作基础上进行构建。通过这项工作，我们希望为保护令人惊叹全球语言多样性做出一点贡献。”

语音识别和文本转语音模型往往需要使用数千小时的音频素材进行训练，同时附带转录标签。（标签对机器学习至关重要，使得算法能够正确分类并“理解”数据。）但对于那些在工业化国家并未广泛使用的语言——其中许多语言在未来几十年内甚至有消失的风险——Meta 提醒称“根本就不存在这样的数据”。

Meta AI 团队称，MMS 项目最大的一个难点在于很多语言数据是缺失的。Meta AI 团队通过结合 wav2vec 2.0（该公司的“自监督语音表示学习”模型）和一个新数据集来克服其中一些挑战。其中一些语言，例如 Tatuyo 语言，只有几百人使用，而且对于其中的大多数语言，之前不存在语音技术。

Meta 表示：“收集数千种语言的音频数据是我们的第一个挑战，因为现有最大的语音数据集最多涵盖 100 种语言。为了克服它，我们求助于圣经等宗教文本，这些文本已被翻译成多种不同的语言，并且其翻译已被广泛研究用于基于文本的语言翻译研究。这些翻译有公开的录音，记录了人们用不同语言阅读这些文本的情况。作为该项目的一部分，我们创建了 1100 多种语言的新约读物数据集，每种语言平均提供 32 小时的数据”。

潜在的性别偏见分析。在 FLEURS 基准测试中，基于大规模多语言语音数据训练的自动语音识别模型对于男性和女性说话者具有相似的错误率。

乍看之下这种方法大有问题，因为此类训练思路似乎严重偏向宗教的世界观。但 Meta 表示情况并非如此，“虽然录音内容涉及宗教，但我们的分析表明，产出的模型并不会生成更多宗教语言。猜测这是因为我们使用了连接主义时间分类（CTC）方法，与语音识别类大语言模型（LLM）或序列到序列模型相比，前者受到的限制要大得多。”此外，尽管大多数宗教录音都是由男性朗读，但也不会引入男性偏见——模型在女性和男性单色中同样表现出色。

2相比同类模型，MMS 单词错误率更低

在训练出能够使用这些数据的对齐模型之后，Meta 又引入 wav2vec 2.0，可通过未标注的数据进行训练。非常规数据源和自监督语音模型相结合，最终带来了令人印象深刻的结果。“我们的结果表明，与现有模型相比，大规模多语言语音模型表现良好，覆盖的语言数量是现有模型的 10 倍。”具体来看，Meta 将 MMS 与 OpenAI 的 Whisper 进行比较，实际结果超出预期。“我们发现在 MMS 数据上训练的模型将单词错误降低了一半，而 MMS 涵盖的语种数量则增长至 11 倍。”

Meta 公司警告称，这套新模型并不完美。“例如，语音转文本模型在特定的单词或短语上可能存在一定的错误转录风险。根据输出结果，这可能会导致攻击性和 / 或不准确的表述。我们仍然相信，整个 AI 社区的协作对于负责任开发 AI 技术至关重要。”

考虑到 Meta 已经发布了这套开源研究的 MMS 模型，希望它能扭转因科技巨头的支持习惯而逐渐将全球使用语言缩减至 100 种以下的趋势。以此为契机，辅助技术、文本转语音（TTS）甚至 VR/AR 技术，也许将给每个人都塑造出能用母语表达和学习的世界。Meta 表示，“我们设想一个依靠技术带来相反效果的世界，鼓励人们保持自己母语的活力，通过自己最熟悉的语言获取信息、使用技术。”

Meta 的结果表明，大规模多语言语音模型优于现有模型，覆盖的语言数量是现有模型的 10 倍。Meta 通常专注于多语言：对于文本，NLLB 项目将多语言翻译扩展到 200 种语言，而 Massively Multilingual Speech 项目将语音技术扩展到更多语言。

Meta 表示该款大模型相比于 OpenAI 的同类产品单词错误率少了一半。

在与 OpenAI 的 Whisper 的同类比较中，我们发现在 Massively Multilingual Speech 数据上训练的模型实现了一半的单词错误率，但 Massively Multilingual Speech 涵盖的语言是其 11 倍。这表明与当前最好的语音模型相比，我们的模型可以表现得非常好。

3Meta AI 在大语言模型路上越走越远

在硅谷这场愈演愈烈的 AI 大战中，一直 All in 元宇宙的 Meta 正在加速追赶 OpenAI、谷歌、微软等大模型先行者们。

今年 2 月 24 日，在火遍全球的 ChatGPT 发布 3 个月后，Meta 在官网公布了一款新的人工智能大型语言模型 LLaMA，从参数规模来看，Meta 提供有 70 亿、130 亿、330 亿和 650 亿四种参数规模的 LLaMA 模型，并用 20 种语言进行训练。

Meta 首席执行官马克·扎克伯格表示，LLaMA 模型旨在帮助研究人员推进工作，在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等更复杂的任务方面有很大的前景。

Meta 首席 AI 科学家杨立昆（Yann LeCun）表示，在一些基准测试中，LLaMA 130 亿参数规模的模型性能优于 OpenAI 推出的 GPT3，且能跑在单个 GPU 上；650 亿参数的 LLaMA 模型能够和 DeepMind 700 亿参数的 Chinchilla 模型、谷歌 5400 亿参数的 PaLM 模型竞争。

4 月 19 日，Meta 宣布开源 DINOv2 视觉大模型。据悉，DINOv2 是一最先进的计算机视觉自监督模型，可以在深度估计、语义分割和图像相似性比较等任务中实现 SOTA 级别的性能。该模型可以借助卫星图像生成不同大洲的森林高度，在医学成像和作物产量估算等领域具有潜在应用。

5 月 10 日，Meta 宣布开源可跨越六种感官的大模型 ImageBind，新的 ImageBind 模型结合了文本、音频、视觉、运动、热和深度数据。该模型目前只是一个研究项目，展示了未来的人工智能模型如何能够生成多感官内容。通过利用多种类型的图像配对数据来学习单个共享表示空间。该研究不需要所有模态相互同时出现的数据集，相反利用到了图像的绑定属性，只要将每个模态的嵌入与图像嵌入对齐，就会实现所有模态的迅速对齐。

Meta 力求通过这样密集的发布向外界证明自己还一直跑在 AI 赛道中。

然而，在烧光了几十亿美元义无反顾押注元宇宙后，Meta 在 AI 方面的能力还是受到了外界的质疑。

在 Meta 公司今年 4 月的季度财报电话会议上，公司 CEO 扎克伯格明显相当被动。砸下数十亿美元、被寄予延续帝国辉煌厚望的元宇宙愿景还没来得及初试啼声，就被围绕人工智能（AI）掀起的汹涌狂潮抢了风头，刹那沦为明日黄花。

批评者们注意到就连 Meta 自己的底气也有所减弱，扎克伯格去年 11 月和今年 3 月两份声明间的口吻大为改变。之前扎克伯格强调这个项目属于“高优先级的增长领域”，而今年 3 月则转而表示“推进 AI”才是公司的“最大单一投资方向”。

但扎克伯格本人还是做出了澄清，表示“有人认为我们正以某种方式放弃对元宇宙愿景的关注，我想提前强调，这样的判断并不准确。”

“多年以来，我们一直专注于 AI 和元宇宙技术，未来也将继续双管齐下……构建元宇宙是个长期项目，但我们的基本思路将保持不变、努力方向也不会动摇。”

参考链接：

https://www.engadget.com/metas-open-source-speech-ai-recognizes-over-4000-spoken-languages-161508200.html

https://ai.facebook.com/blog/multilingual-model-speech-recognition/

Tags：大模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

华为笔记本将接入盘古大模型！全新华为MateBook X Pro即将发布

快科技4月10日消息，华为官方宣布，华为将于4月11日举办新品发布会。据了解，此次发布会将推出全新的华为MateBook X Pro，而预热海报的主题是“轻且强”。这里的“强”不仅仅是指性...【详细内容】

2024-04-10　　Search: 大模型点击:(4)　　评论:(0)　　加入收藏

行业大模型快速落地的一年，如何做？

生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一...【详细内容】

2024-04-10　　Search: 大模型点击:(3)　　评论:(0)　　加入收藏

AI是万灵药？Meta要把大模型塞进AR眼镜里

寻找下一块“屏幕”，这无疑是最近几年科技行业的一个热门赛道。随着个人计算机点燃了互联网，智能手机让移动互联网无处不在之后，这前后两次造富神话的出现，也让所有人都在期待下...【详细内容】

2024-04-09　　Search: 大模型点击:(6)　　评论:(0)　　加入收藏

AI程序员上岗垂类大模型应用迎来井喷期

能自动写代码的“AI员工”、逐渐告别不够好用的智能客服，无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业，IT、工业生产、金融、服务...【详细内容】

2024-04-07　　Search: 大模型点击:(4)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

大模型Kimi火了，长文本“卷”出新高度

近日，AI智能助手Kimi宣布支持200万字无损上下文，在长上下文窗口技术上再次取得突破，引燃人工智能领域新一轮投资热情。　　摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo，支持1...【详细内容】

2024-03-29　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

大模型应用的 10 种架构模式

作者 | 曹洪伟在塑造新领域的过程中，我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说，已经司空见惯，设计模式已成为程序员们的重...【详细内容】

2024-03-27　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

超长文本是AI大模型的能力突破口吗？

◎记者刘怡鹤近日，能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为，国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】

2024-03-26　　Search: 大模型点击:(8)　　评论:(0)　　加入收藏

百度AI“咬”了一口苹果大模型商用有戏了？

百度3月25日突传利好。据知情人士透露，百度将为苹果今年发布的iPhone16、Mac系统和ios18提供AI功能。消息人士称，苹果曾与阿里以及另外一家国产大模型公司进行过洽谈，最后确定...【详细内容】

2024-03-26　　Search: 大模型点击:(19)　　评论:(0)　　加入收藏

Kimi引燃大模型“长文本竞赛”，阿里360百度急出手

从ChapGPT到Sora，从数千亿参数到千万长文本，大模型浪潮下，永远不缺热点。近日，“Kimi概念股暴涨”“Kimi为宕机道歉”等词条先后冲上微博热搜，让月之暗面这家刚成立一年的人工智...【详细内容】

2024-03-25　　Search: 大模型点击:(15)　　评论:(0)　　加入收藏

▌简易百科推荐

GitHub顶流"Web OS"——运行于浏览器的桌面操作系统、用户超100万、原生jQuery和JS编写

Puter 是近日在 GitHub 上最受欢迎的一款开源项目，正式开源还没到一周 ——star 数就已接近 7k。作者表示这个项目已开发 3 年，并获得了超过 100 万用户。根据介绍，P...【详细内容】

2024-03-10　　OSC开源社区　　　　Tags:GitHub 　点击:(17)　　评论:(0)　　加入收藏

一文读懂 AutoGPT 开源 AI Agents

Hello folks，我是 Luga，今天我们继续来聊一下人工智能(AI)生态领域相关的技术 - AutoGPT AI Agents ，本文将聚焦在针对不同类型的 AutoGPT 技术进行解析，使得大家能够了解不同 A...【详细内容】

2023-11-27　　架构驿站　　微信公众号　　Tags:AI Agents 　点击:(253)　　评论:(0)　　加入收藏

了解一下开源许可协议

开源许可协议开源许可协议是指允许软件源代码公开、免费获取、使用、修改和分发的许可协议。开源许可协议的目的是促进软件的自由共享和协作，使得开发者可以共同改进和创造新...【详细内容】

2023-11-18　　沐雨花飞蝶　　微信公众号　　Tags:开源　点击:(216)　　评论:(0)　　加入收藏

七个很实用的开源项目，我们一起学学吧!

本周特推的两个项目都是异常实用的项目，一个接棒上周的视频重制项目 video-retalking 这次则是直接将视频替换成另外一个语种；另外一个则是解决日志阅读问题的 tailspin，让你在...【详细内容】

2023-11-06　　HelloGitHub　　微信公众号　　Tags:开源　点击:(384)　　评论:(0)　　加入收藏

八个适合程序员接私活赚钱的开源项目

智慧团购一套基于Spring Cloud和Vue.js的社区团购配送系统，经过真实的用户检验且完善的社区团购配送系统，社区团购配送系统包含管理台、集团总店(商家PC端)、城市合伙人、区域...【详细内容】

2023-10-13　　前端充电宝　　微信公众号　　Tags:开源项目　点击:(272)　　评论:(0)　　加入收藏

八个优秀开源DevOps工具

DevOps（Development和Operations）是一组软件工程过程最佳实践，并非工具，旨在将制造世界的精益概念应用于软件世界。维基百科给出的定义是：“DevOps是一种重视软件开发人员（Dev）和IT...【详细内容】

2023-10-10　　andflow　　微信公众号　　Tags:DevOps 　点击:(291)　　评论:(0)　　加入收藏

开源存在风险的根本原因

漏洞仍然是可以预防的几乎所有(96%)的漏洞仍然是可以避免的。2023年本可以避免21亿次具有已知漏洞的OSS下载，因为有了更好的修复版本——与2022年的百分比完全相同...【详细内容】

2023-10-09　　　　企业网D1Net　　Tags:开源　点击:(299)　　评论:(0)　　加入收藏

中国14岁初中生，开源Windows 12网页版，star数近2k

出品 | OSC开源社区（ID：oschina2013)前几天在网上冲浪，发现名为「Windows 12 网页版」的开源项目——在网页端实现了Windows 12 的交互和 UI。项目亮点：精美的 UI 设...【详细内容】

2023-09-07　　　　OSC开源社区　　Tags:开源　点击:(249)　　评论:(0)　　加入收藏

苹果开源FastViT：快速卷积Transformer的混合视觉架构

苹果此前在论文《FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization》中提出的 FastViT 架构已正式开源。论文地址：https://arxiv.org/pdf/23...【详细内容】

2023-08-16　　OSC开源社区　　　　Tags:FastViT 　点击:(319)　　评论:(0)　　加入收藏

金融机构使用开源软件，有哪些潜在风险？

面对新技术，无法逃避，只有先行和后行，没有不执行。本文来自社区文章《论述金融机构使用开源软件的潜在风险》及对该文的评论交流，由社区同行分享，也欢迎大家参与探讨。@朱向东中...【详细内容】

2023-08-14　　　　IT168企业级　　Tags:开源软件　点击:(280)　　评论:(0)　　加入收藏

推荐资讯

整治“暗箱操作” 义	网易再牵暴雪的手，实际
注意！密码、验证码都没	将他人商标设为搜索关
打破刚兑：投资者还能相	拜登坐不住了？罕见对美
黄金狂飙如何影响人民	重新审视2008年全球金