您当前的位置：首页 > 电脑百科 > 人工智能

谷歌开源首个「方言」数据集：让机器翻译更地道

时间：2023-02-28 14:17:08 来源：作者：新智元

+ 加入收藏

新智元报道

编辑：LRS

【新智元导读】数据集包含葡萄牙语和汉语普通话。

虽然全中国的人都在说汉语，但具体到各地的方言却略有不同，比如同样是小巷的意思，「胡同」一开口就知道是老北京了，而到了南方则叫「弄」。

这种细微的地域性差异反应在「机器翻译」任务上，就会显得翻译结果不够「地道」，而目前几乎所有的机器翻译系统都没有考虑地区性语言（即方言）的影响。

而在世界范围内也存在这种现象，比如巴西的官方语言是葡萄牙语，跟欧洲的葡萄牙语之间也有一些地域性差异。

最近谷歌发布了一个全新的，可用于Few-shot Region-aware机器翻译的数据集和评估基准FRMT，主要解决方言翻译问题，论文发表在TACL（Transactions of the Association for Computational Linguistics）上。

论文链接：https://arxiv.org/pdf/2210.00193.pdf

开源链接：https://Github.com/google-research/google-research/tree/master/frmt

该数据集包括从英语到葡萄牙语和中文普通话的两个地区变体的专业翻译，源文档是为了能够详细分析感兴趣的现象，包括词汇上不同的术语和干扰术语。

研究人员探索了 FRMT 的自动评估指标，并在区域匹配和不匹配评分情景下验证了其与专家人工评估的相关性。

最后，为这项任务提出了一些基线模型，并为研究人员如何训练、评估和比较自己的模型提供指导建议，数据集和评估代码已开源。

Few-Shot泛化

大多数现代机器翻译系统都经过数百万或数十亿翻译样本的训练，输入数据包括英语输入句及其相应的葡萄牙语翻译。

然而，绝大多数可用的训练数据并没有说明翻译的地区差异。

比如输入句子：The bus arrived，再给定几个巴西葡萄牙语的例子，模型应该能翻译出「O ônibus chegou」；如果给的样例是欧洲葡萄牙语，模型的翻译结果应该变为「O autocarro chegou」。

机器翻译的few-shot方法是很有研究价值的，能够以一种非常简单的方式来对现有系统中增加对额外区域语言的支持能力。

虽然谷歌目前发表的工作是针对两种语言的区域变体，但研究人员预测，一个好的方法将很容易适用于其他语言和区域的变体。

从原理上来说，这些方法也适用于其他语言差异现象，例如礼节和风格等。

数据收集

FRMT 数据集包括部分英文维基百科文章，来源于 Wiki40b 数据集，这些文章已经由付费的专业翻译人员翻译成不同的地区性的葡萄牙语和汉语。

为了突出关键区域感知的翻译难题，研究人员使用了三个内容桶（content buckets）来设计数据集：

1. 词汇 Lixical

研究人员根据博客和教育网站手动收集了20-30个具有地区特色的翻译术语，并根据来自每个地区的母语志愿者的反馈对翻译进行过滤和审核。

根据得到的英语术语列表，从相关的英语维基百科文章（例如，bus）中提取出100个句子。再对普通话，重复上述相同的的收集过程。

2. 实体 Entity

实体桶以类似的方式填充，涉及的人、位置或其他实体与某一特定语言所涉两个区域之一有着密切联系。

比如给定一个说明性的句子，如「In Lisbon, I often took the bus.」（在里斯本，我经常坐公共汽车。），为了正确地将其翻译成巴西葡萄牙语，模式必须能够识别出两个潜在的陷阱：

1）里斯本和葡萄牙之间更密切的地理关联可能会影响模型翻译的选择，从而帮助模型判断出应该翻译成欧洲葡萄牙语而非巴西葡萄牙语，即选择「autocarro」而不是「ônibus」。

2）用「巴西利亚」代替「里斯本」可能是一个比较简单的方式，对于同一个模式，对巴西葡萄牙语本地化其输出，即便翻译结果仍然很流畅，但也可能会导致不准确的语义。

3. 随机 Random

随机桶用于检查一个模型是否正确处理了其他不同的现象，包含从维基百科的featured和good）集合中随机抽取的100篇文章。

系统性能

为了验证为 FRMT 数据集收集的翻译能够捕获特定区域的现象，研究人员对数据质量进行了人工评估。

对于每个地区，研究人员要求 MQM 评分者对来自他们所在地区的翻译和来自他们语言的其他地区的翻译进行评分。

例如，巴西的葡萄牙语评分员同时对巴西和欧洲的葡萄牙语译本都进行了评分，两个分数之间的差异表明语言现象的普遍性，即该语言变体是否可接受，而并非是另一种语言。

实验结果发现，在葡萄牙语和汉语中，评分者平均比匹配的译文中每个句子多发现大约两个主要错误，表明FRMT数据集确实能够捕获特定区域的语言现象。

虽然人工评估是确保模型质量的最佳方法，但其往往是缓慢且昂贵的。

因此，研究人员希望找到一个现成的自动度量指标，可以用来评估模型在基准中的性能，研究人员考虑选择使用 chrF，BLEU 和 BLEURT.

根据 MQM 评估者对几个基线模型翻译结果的评分，可以发现 BLEURT 与人类判断具有最好的相关性，并且该相关性的强度(0.65 Pearson 相关系数，ρ)与标注者间一致性(0.70组内相关性)相当。

系统性能

文中评估了一些最近发布的、具有few-shot控制能力的模型。

基于 MQM 的人类评估，基线方法都表现出一定的localize葡萄牙语输出的能力，但是对于中文普通话，大多没有利用目标地区的知识来生成优秀的当地翻译结果。

在评估的基准中，谷歌的语言模型 PaLM 模型的性能最佳，为了使用 PaLM 生成针对区域的翻译，首先将一个有指导意义的提示输入模型，然后从中生成文本以填充空白。

PaLM 仅通过一个例子就获得了很好的结果，在葡萄牙语方面，当增加到10个例子时，质量略有提高，考虑到 PaLM 是在无监督的情况下进行训练的，这种表现已经非常好了。

研究结果还表明，像 PaLM 这样的语言模型可能特别擅长记忆流畅翻译所需的特定区域的词汇选择。

然而，在 PaLM 和人类之间仍然存在显著的性能差距。

参考资料：

https://AI.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html

Tags：点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

新增融券再启动暂停键，有头部券商融券池全部收回！融券余额已较年初下降近四成

4月11日，A股市场触底反弹。其中，有一则消息是触发市场反弹的重要原因：据称，多家券商暂停新增融券通券源，拟阶段性临停融券通券源每日新增投放。《每日经济新闻》向某华东头部券商...【详细内容】

2024-04-11　　Search: 点击:(3)　　评论:(0)　　加入收藏

16个Redis常见使用场景总结

来源：blog.csdn.net/qq_39938758/article/details/105577370目录缓存数据共享分布式分布式锁全局ID 计数器限流位统计购物车用户消息时间线timeline 消息...【详细内容】

2024-04-11　　Search: 点击:(2)　　评论:(0)　　加入收藏

一篇文章教会你使用Python中三种简单的函数

所谓函数，就是指：把某些特定功能的代码组成为一个整体，这个整体就叫做函数。一、函数简介所谓函数，就是指：把某些特定功能的代码组成为一个整体，这个整体就叫做函数。二、函数定义...【详细内容】

2024-04-11　　Search: 点击:(3)　　评论:(0)　　加入收藏

聊聊Rust里面的数据类型

嘿，朋友们！今天我们来聊聊Rust里面的数据类型。你知道吗？Rust的数据类型可是很重要的哦，它们帮助我们定义变量和函数可以处理什么样的数据。基本数据类型首先，让我们来看看Rust提...【详细内容】

2024-04-11　　Search: 点击:(2)　　评论:(0)　　加入收藏

C++中的外部模板及其在当前编译文件中的实例化

在C++中，模板是一种泛型编程的工具，它允许程序员以一种类型无关的方式编写代码。然而，模板的一个常见问题是它们会导致编译时间增加，特别是在大型项目中，当多个源文件包含相同的...【详细内容】

2024-04-11　　Search: 点击:(2)　　评论:(0)　　加入收藏

一篇文章带你了解Python的分布式进程接口

在Thread和Process中，应当优选Process，因为Process更稳定，而且，Process可以分布到多台机器上，而Thread最多只能分布到同一台机器的多个CPU上。一、前言在Thread和Process中，应当优...【详细内容】

2024-04-11　　Search: 点击:(2)　　评论:(0)　　加入收藏

网络安全行业的春天何时来?

2023年下半年开始，网络安全从业人员都感受到了网安行业的寒冬，但是其实前奏并不是此刻，只是涉及到大量裁员关乎自身而人人感同身受。从近五年各个网络安全上市公司财报可以发现...【详细内容】

2024-04-11　　Search: 点击:(2)　　评论:(0)　　加入收藏

Linux获取Redis 性能指标方法

一、监控指标Ø 性能指标：PerformanceØ 内存指标: MemoryØ 基本活动指标：Basic activityØ 持久性指标: PersistenceØ 错误指标：Error二、监...【详细内容】

2024-04-11　　Search: 点击:(3)　　评论:(0)　　加入收藏

Redis与缓存一致性问题

缓存一致性问题是在使用缓存系统，如Redis时经常遇到的问题。当数据在原始数据源（如数据库）中发生变化时，如何确保缓存中的数据与数据源保持一致，是开发者需要关注的关键问题。一...【详细内容】

2024-04-11　　Search: 点击:(2)　　评论:(0)　　加入收藏

10余所高校公布强基计划，今年有哪些变化？

今天，中国人民大学、中国农业大学、复旦大学、武汉大学、山东大学、吉林大学、重庆大学、大连理工大学发布了2024年强基计划招生简章。目前，已有10余所高校发布了招生简章。它...【详细内容】

2024-04-11　　Search: 点击:(2)　　评论:(0)　　加入收藏

▌简易百科推荐

行业大模型快速落地的一年，如何做？

生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一...【详细内容】

2024-04-10　　　　钛媒体APP　　Tags:行业大模型　点击:(3)　　评论:(0)　　加入收藏

互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

早前，一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主，向用户大力推介“所有人都需要学”的AI入门课程。不过，这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】

2024-04-10　　　　九派新闻　　Tags:AI课　点击:(7)　　评论:(0)　　加入收藏

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(4)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(6)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(3)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(5)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(6)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

推荐资讯

新增融券再启动暂停键	16个Redis常见使用场
一篇文章教会你使用Py	聊聊Rust里面的数据类
C++中的外部模板及其	一篇文章带你了解Pyth
网络安全行业的春天何	Linux获取Redis 性能

无相关信息

站内最新

栏目相关

· 行业大模型快速落地的一年，如何做？

· 互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

· 藏在AI背后的“吃电狂魔”

· OpenAI和谷歌再起纷争：AI的尽头是内容

· AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

· 和“数字人”交朋友，当心隐私被出卖......

· AI“复活”成产业链：成本可降至数百元

· 多方热议人工智能产业新机遇

· 人形机器人时代来了吗

· AI重塑社交：腾讯与字节跳动的新赛场

· 第一批用 Kimi 做内容的网红已经杀疯了

· 昆仑万维发布面向人工智能时代的六条人才宣言

· AI干掉声优？音频大模型追逐“图灵时刻”

· 生成式人工智能有哪些新趋势？

· AI世界的新难题：互联网的信息不够用了！

· 今天起，ChatGPT无需注册就能用了！

· AI时代，面对死亡有了第二种选择？

· 影视业AI应用如何超乎想象？

· 当AI会作词作曲唱歌，音乐人何去何从

· 大模型Kimi火了，长文本“卷”出新高度

站内热门