您当前的位置:首页 > 新闻资讯 > 科技

Meta推出“AI翻译官”!能翻译和转录近百种语言,已开源

时间:2023-08-24 11:54:26  来源:  作者:智东西

智东西

编译 | 程茜

编辑 | 心缘

智东西8月23日报道,昨晚,Meta官宣AI大模型SeamlessM4T,该模型可翻译和转录近百种语言。

SeamlessM4T能实现近百种语言的自动语音识别、语音到文本翻译,以及近百种输入语言和35种输出语言的语音翻译、文本转语音翻译。

构建通用语言翻译器有一定挑战性,因为现有的语音到语音、语音到文本的系统都只涵盖了全球现存语言的一小部分,SeamlessM4T扩大了语言覆盖的范围,并且是一个可以完成多种任务的统一多语言模型。

秉持其一贯的开源策略,Meta在开源协议CC BY-NC 4.0下公开发布了SeamlessM4T,开发人员可以在这个模型的基础上进行开发。同时,Meta还发布了SeamlessAlign的数据集,其博客提到这也是迄今为止最大的开放多模态翻译数据集,覆盖挖掘的语音和文本对齐总计达270000小时。

SeamlessM4T Demo体验网址:https://seamless.metademolab.com/

模型代码下载地址:https://Github.com/facebookresearch/seamless_communication

一、录音、选择、翻译一气呵成,背景噪声干扰、说话人角色区分

Meta的博客中提到一般而言,现有的语音到语音翻译过程,会被划分为多个阶段,然后不同阶段会有对应的单独系统,很少能有统一的系统去完成多个任务。

SeamlessM4T的出现就解决了语音到语音翻译任务对单独系统的依赖的难题。

打开SeamlessM4T的Demo体验网站,用户点击下方的“START RECORDING”按钮就可以开始录音,录制完成进入第二步,“SELECT TRANSLATION LANGUAGE”选择需要翻译的语言种类,最后点击下方的“TRANSLATE”就会出现翻译的文本、语音两种结果。

在Meta的测试中,SeamlessM4T在保持高资源语言性能的同时,提高了中低资源语言的翻译性能,并且在近100种语言中实现了自动语音识别、语音转文本、语音转语音、文本转语音和文本转语音等多任务支持。

为了在不依赖基于文本的指标情况下更准确地评估SeamlessM4T,研究人员将无文本指标扩展到可以进行跨语音和文本单元评估的BLASER 2.0。进行鲁棒性测试时,与当前其它模型相比,SeamlessM4T在语音转文本任务中背景有噪声和出现多个说话人时的表现更好,平均分分别提高了37%和48%。

从基本的数据来看,SeamlessM4T的模型需要大量高质量端到端数据,仅仅靠人工转录和翻译的语音无法满足近100种语言语音翻译的需求。因此,Meta为200种语言构建了大规模多语言和模态文本嵌入空间SONAR,能快速搜索具有相似性的多种语言。

同时,通过挖掘公开可用的网络数据存储库中的数百亿个句子和400玩小时的语音数据,Meta还构建了语料库SeamlessAlign,能自动将超过443000小时的语音与文本进行对齐,并创建了约29000小时的语音到语音对齐。

同时,SeamlessM4T的构建还借鉴了Meta此前的技术积累,包括去年发布的文本到文本机器翻译模型NLLB、发规模多语言翻译数据集SpeechMatrix,以及今年的跨1100种语言的语音识别技术Massively Multilingual Speech等,基于大量先前的研究成果,才使得SeamlessM4T能仅用单一模型就实现多语言和多任务的翻译功能。

二、适配多任务模型架构、语音文本编码器

为了构建统一模型,Meta的研究人员在工具包、模型架构、编码器等上都进行了适配。

Meta重新设计了序列建模工具包fairseq,并使用多任务UnitY模型架构,这一新架构能实现自动语音识别、文本到文本、文本到语音、语音到文本和语音到语音翻译。

处理语音的过程中,自监督语音编码器w2v-BERT 2.0相比于w2v-BERT版本,训练稳定性和生成质量有了提升,编码器可以将获取到的音频信号分解为更小的部分构建内部表示。

文本编码器采用的是文本到文本翻译模型NLLB,它经过训练可以理解近100种语言的文本并生成对翻译有用的信息。

然后到了生成文本的步骤,通过多任务训练,Meta利用NLLB模型,通过标记级知识蒸馏来指导语音到文本翻译模型,就可以将这一编码器应用于自动语音识别、多语言翻译任务。例如,某人用法语说“bonjour(你好)”,可以将其翻译为斯瓦西里语的文本“habari”。

翻译内容的语音输出,Meta基于UnitY模型中的文本到单元(T2U)组件,这一组件可以根据文本输出生成离散语音单元,并在UnityY微调之前根据自动语音识别数据进行预训练。然后使用多语言HiFi-GAN单元声码器将这些离散单元转换为音频波形。

结语:语言翻译仍需清除有害内容输出

就Meta的测试结果来看,SeamlessM4T相比于其他系统的翻译、转录效果更好,并且覆盖的语言范围也更为广泛。

值得一提的是,与所有生成式AI存在的风险类似,翻译过程的准确性也十分重要,这一AI模型可能会错误转录用户说的话,或转录有害信息等。

因此,Meta还将高度多语言的有害性内容分类器扩展到语音,以帮助识别语音输入和输出中的有害内容。



Tags:Meta   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
AI是万灵药?Meta要把大模型塞进AR眼镜里
寻找下一块“屏幕”,这无疑是最近几年科技行业的一个热门赛道。随着个人计算机点燃了互联网,智能手机让移动互联网无处不在之后,这前后两次造富神话的出现,也让所有人都在期待下...【详细内容】
2024-04-09  Search: Meta  点击:(2)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09  Search: Meta  点击:(1)  评论:(0)  加入收藏
Meta:Quest 手势追踪不会用于模拟手柄
IT之家 3 月 28 日消息,Meta Quest 用户期待的“空气手柄”功能可能要落空了。近日,Meta 的一位产品经理明确表示,手势追踪功能不会用于模拟传统的实体手柄控制器。据IT之家了...【详细内容】
2024-03-29  Search: Meta  点击:(8)  评论:(0)  加入收藏
Meta:苹果入局证明扎克伯格对AR/VR坚持投入是正确的
(映维网Nweon 2024年01月29日)根据《华尔街日报》报道,对于苹果携Vision Pro正式入局头显市场,Meta实际上非常欢迎,并希望苹果及Vision Pro可以助力他们已投入500亿美元的元宇宙...【详细内容】
2024-01-29  Search: Meta  点击:(46)  评论:(0)  加入收藏
谷歌Gemini大逆转?斯坦福Meta华人证明其推理性能强于GPT-3.5
新智元报道编辑:编辑部【新智元导读】谷歌放出的Gemini,在对标GPT的道路上似乎一直处于劣势,Gemini真的比GPT-4弱吗?最近,斯坦福和Meta的学者发文为Gemini正名。Gemini的推理能力...【详细内容】
2024-01-02  Search: Meta  点击:(71)  评论:(0)  加入收藏
股价飙升150%走出市值暴跌阴影,扎克伯格的Meta今年做对了什么?
原文来源:元宇宙新声图片来源:由无界 AI生成2023年对于Facebook母公司Meta来说,是一个转折点。截至第三季度,Meta的股价涨幅已超过150%,这一显著的反弹让人难以想象就在去年,公司...【详细内容】
2023-12-26  Search: Meta  点击:(57)  评论:(0)  加入收藏
Meta头显新增舌头追踪,网友大写震惊:我不问也不想知道为什么
量子位 | 公众号 QbitAI就还挺突然的……Meta的MR头显可以进行舌头追踪了。效果be like:有了这个新功能,咱就可以舔虚拟甜筒冰淇淋,也能更好地表达天气很热,以及___...【详细内容】
2023-12-20  Search: Meta  点击:(103)  评论:(0)  加入收藏
计算机图形学将迎来新突破?Meta 携手斯坦福大学推出 3D 交互模型,VR 时代似乎不远了
作者 | 李冬梅、核子可乐近日,斯坦福大学与 Meta/Facebook AI 研究(FAIR)实验室的工作人员共同开发出一套突破性的 AI 系统,能够仅根据文本描述在虚拟人和物体之间生成自然、协...【详细内容】
2023-12-14  Search: Meta  点击:(129)  评论:(0)  加入收藏
一文带你全面了解Meta的开源人工智能音乐模型——MusicGen
译者 | 朱先忠审校 | 重楼摘要:本文将同你一起探索Meta公司研制的新的开源人工智能音乐模型MusicGen,尤其是分析此模型中一些往往被忽视但实际却代表显著进步方面的内容。音乐...【详细内容】
2023-12-08  Search: Meta  点击:(213)  评论:(0)  加入收藏
Meta、IBM发起AI联盟,“抱团取暖”对抗 OpenAI等巨头?
最新消息称,Meta Platforms和IBM发起了一个由50多家人工智能公司和研究机构组成的人工智能联盟(AI Alliance),意在培养⼀个开放的社区,使开发⼈员和研究⼈员能够加快⼈⼯智能领域...【详细内容】
2023-12-06  Search: Meta  点击:(114)  评论:(0)  加入收藏
▌简易百科推荐
谷歌推出适用于安卓设备的“查找我的设备”网络
IT之家 4 月 9 日消息,谷歌今日推出了适用于安卓设备的“查找我的设备”网络,其功能类似于苹果的“查找”网络,旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到,与苹果的“...【详细内容】
2024-04-09    IT之家  Tags:安卓   点击:(2)  评论:(0)  加入收藏
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
2026年的数据荒越来越近,硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天AI忽然吐出了我们的...【详细内容】
2024-04-09    新智元  Tags:硅谷   点击:(2)  评论:(0)  加入收藏
谷歌搜索史上最大变革!考虑对AI搜索收费
快科技4月7日消息,据国外媒体报道,谷歌正计划对由生成式人工智能驱动的新高级功能收费,这将是谷歌搜索业务历史上最大的一次变革。自2000年以来,谷歌的搜索产品一直依靠广告盈利...【详细内容】
2024-04-08    快科技  Tags:谷歌搜索   点击:(7)  评论:(0)  加入收藏
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08    环球网  Tags:AI   点击:(7)  评论:(0)  加入收藏
训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
全网真的无数据可用了!外媒报道称,OpenAl、Anthropic等公司正在努力寻找足够的信息,来训练下一代人工智能模型。前几天,OpenAI和微软被曝出正在联手打造超算「星际之门」,解决算...【详细内容】
2024-04-08    新智元  Tags:GPT-5   点击:(1)  评论:(0)  加入收藏
当“机器人”有了“AI大脑” 人形机器人时代来了吗
数智风向标当“机器人”有了“AI大脑”​人形机器人时代来了吗简单明了的口令下达后,机器人便开始搬箱子、运小球,在各类不同的地形行走……这些身上布满芯片和传...【详细内容】
2024-04-08    中国青年报  Tags:机器人   点击:(3)  评论:(0)  加入收藏
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07    IT之家  Tags:OpenAI   点击:(6)  评论:(0)  加入收藏
量子计算会和经典计算一样融入人们的日常生活
作为2024中国网络媒体论坛打造的创新活动之一,“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场,本源量子计算科技(合肥)股份有限公司(以下简称“...【详细内容】
2024-04-03    人民网  Tags:量子计算   点击:(8)  评论:(0)  加入收藏
ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
新智元报道编辑:编辑部【新智元导读】OpenAI这份愚人节礼物,实在是太大了:今天起,ChatGPT不用注册,可以直接使用。用户狂欢,竞品颤抖,我们仿佛已经听到,谷歌搜索引擎这位巨人轰然倒...【详细内容】
2024-04-02    新智元  Tags:ChatGPT   点击:(8)  评论:(0)  加入收藏
谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
IT之家 4 月 2 日消息,根据华尔街日报报道,谷歌为了结追溯到 2020 年的集体诉讼案,近日同意删除通过 Chrome 浏览器“无痕(Incognito)模式”下收集的用户数据。这起诉讼原告认为,...【详细内容】
2024-04-02    IT之家  Tags:Chrome   点击:(7)  评论:(0)  加入收藏
站内最新
栏目相关
  • · 谷歌推出适用于安卓设备的“查找我的设备”网络
  • · 你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · 为训练AI,OpenAI等科技巨头花式淘数据
  • · 训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
  • · 当“机器人”有了“AI大脑” 人形机器人时代来了吗
  • · 报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
  • · 量子计算会和经典计算一样融入人们的日常生活
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
  • · 哥伦比亚大学华人开发「人脸机器人」,照镜子自主模仿人类表情超逼真
  • · 谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录
  • · GPT商店热度不尽人意 仅用在写论文和炒股票上较受欢迎
  • · 距实现全球安全量子通信更近一步:量子点源产生近乎完美纠缠光子对
  • · 中国三大运营商共同发布通过GSMA Open Gateway认证的一次性密码 API
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · 国家数据局局长刘烈宏:充分发挥数据要素价值 培育新质生产力
  • · 谷歌Chrome巨变:第三方Cookie的终结将重塑互联网格局
  • · 百度+苹果,“AI手机元年”真的来了?
  • · 百度AI“咬”了一口苹果 大模型商用有戏了?
  • 站内热门
    相关头条
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
  • · 瘫痪8年小哥植入马斯克脑机接口,狂打8小时「文明6」!Neuralink首个人类植入者直播来了
  • · 英伟达“算力核弹”强在哪里?
  • · AI大模型之争远未落幕
  • · 世界首款!英伟达重磅发布人形机器人模型
  • · 全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场
  • · 真“Open ” AI?马斯克旗下大模型Grok宣布开源:参数量全球最大
  • · 全球首位AI程序员诞生 人类程序员会失业吗?
  • · 谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量
  • · 英伟达、微软等巨头“抱团”,AI有望助推6G时代到来 国内产业如何接招?
  • · OpenAI Sora已开放对外申请 网友爆料:可能还有其它重磅产品发布
  • · 周鸿祎再谈Sora:真正给人工智能补上了“眼睛”
  • · Sora爆火超100小时:美国狂“卷”算力,国内则卖 AI 课程“捞金”一年5000万|钛媒体AGI
  • · 爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
  • · “AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!
  • · 从居家到工作,CES 2024上演 AI硬件大秀
  • · OpenAI新年头号重磅!GPT Store上线,企业客户新品也来了
  • 站内头条