数据标注员，困在大模型里

时间：2023-09-26 14:41:07 来源：36氪作者：

图片来源：由无界 AI生成

在一家互联网大厂做数据标注的小颜，时常在公司感到一种隔绝。

小颜的工位，跟产品经理、程序员们挨在一起，他们能享受相同的福利：同样的工牌、苹果电脑；随时可以去健身房，或去太空舱睡一觉。

但小颜能察觉到，作为数据标注员的她和其他同事，分属于“两个世界”。

尽管大家是一个团队，但每天的早会，没人会喊上标注员，小颜只能偷偷摸摸在门外看。有一回，有人推来一车台灯，是团队正在做的AI产品样机，程序员们围了上去，很兴奋，拿在手里把玩。标注员们则坐在工位忙自己的事，毫无波澜。“他们不知道那个产品，就是靠标注的数据做出来的。”

入职时，小颜所在的公司正在开发一款教育类AI产品，需要标注大量数据以训练AI。公司买来堆积如山的中小学习题册，小颜的工作是拍下每一道题，然后在电脑上对这些题目拉框，做标注。

同样是为AI工作，程序员清楚地意识到自己的工作价值，享受着算法不断进步带来的快感，但几乎没有标注员会觉得，正是自己的劳动创造了AI。

人工智能的进步离不开数据标注。近几年自动驾驶的发展，带动了数据标注的市场。据德勤的报告显示，2022年自动驾驶领域的标注需求占整个AI下游应用的38%，预计到2027年，比例将上涨到52%。

今年大模型兴起，给数据标注行业再添一把火，大量基于大模型训练场景的订单朝数据标注公司飞去，看上去，数据标注这个枯燥的生意，再次注入活力。

一些技术公司走得更前列，正在尝试使用AI自动合成数据，供AI训练。合成数据是基于少量真实数据，用AI无限生成、无需标注的数据，而不再依赖人工标注。在自动驾驶领域，合成数据可以覆盖一些极端路况，比如行人突然闯入马路等。

在他们的畅想中，今后合成数据将取代人工标注。没有技术、只靠人力的标注公司将被逐步淘汰。一项数据显示，国外用于人工智能的基础数据中，已有70%是合成数据，这条路正在被验证。

对数量庞大的数据标注员来说，上述内容并不是好消息。然而36氪接触的一些标注员，还不清楚ChatGPT到底是什么，他们的反应像是第一次听说这个名词。

小颜说，标注员是一个随时可以被切掉的尾巴。唯一的悬念是，这一刀何时彻底落下。

训练机器的标注员们，觉得自己更像机器

小河的专业是英语系，大四那年在一家大厂实习。第一天上班，办公室在一栋写字楼里，宽敞、干净，完全符合她对互联网公司的想象。没多久她意识到，面试所了解的工作内容——“整理、分类公司语音数据”，其实就是数据标注。

后来小河承认，如果知道那是给AI打工的起始，她会立即走人。

组里有6个实习生，都是名校外语系的同学。一个女组长每天分派任务。有时是一堆英语音标，小河的任务是区分出英音和美音；有时是一份Excel，点开，满眼都是数据，往下拉，足足有一万多条。

“感觉像爬一座山。”小河说。

做过最多的“项目”，是中学生的口语标注。标注员习惯把工作说成项目，一个项目接着一个项目。小河一天要听200条带浓重口音的录音，每条两分钟。听到一般疑问句，打1分；听到特殊疑问句，打2分；都没听到就是0分。为了防止泄密，只能用办公室的有线耳机，小河听得耳朵酸胀，“不由自主的烦躁”。

她经常听到录音出现脏话。有的小孩口语没讲几句，就开始飙国骂。还有一次做地图导航的项目，有人不由分说，在录音里谩骂。“我不知道为什么有人会有那么大的怒气。”

小河说，你不能太当回事，只能给这条录音打个标“无意义”，然后翻篇，继续听下一条。

“像个机器一样”，几乎每个标注员都会这样形容自己。标注不费脑子，一位山东的标注员说，做过最困难的项目是指纹标注。她拿到一堆不知道是谁的指纹图（有些还很模糊），需要沿着指纹的边缘一点点拉框。“那天回家后，闭眼都是指纹。”

许多项目要求标注员严格保密，但标注员也不关心项目用途是什么。上班期间，标注员被要求交出手机，放在墙上的挂袋里。只有接到电话时，才允许他们取回手机。

多数标注员经历过从生疏到熟练，从新鲜到乏味的过程。项目的前期是最有趣的，那时标注规则还不完善，他们经常碰到争议地方，就会互相讨论甚至争论，气氛很热闹。到了中后期，规则差不多定型，就只剩下重复的、机械的劳动，人就会陷入无意义感。

一位标注员说，这是一份“没有头脑的工作”。

江西抚州，当地职校学生在做数据标注；图源：IC photo

上海大学教授贾文娟做过数据标注的田野调查，她认为数据标注不是脑力劳动，也不是体力劳动，而是认知劳动，“人出售的是自己的认知”。黑色幽默的地方是，我们想让机器变得更像人，同时却把人变得像机器。换句话说，抛开人的常识，像机器人那样思考。

而一旦标注员开始思考“我为什么要做这个”，就意味着他离辞职不远了。

郑委是一家数据标注公司的老板，他直言，留不住人。公司最好的光景，也不到20人。新员工经常只能坚持半个月，不少人第一天来上班，第二天就跑了。他只好不停降低招人要求，到最后，他感到“不是我在选人，而是人家在选我”。

他不知道怎么挽留那些要走的人，“你留在这儿会越来越好，这种话其实我自己都不太相信。”郑委告诉36氪。员工流失最终压垮了公司，只剩下两名标注员的时候，他决心解散团队。没过多久，ChatGPT掀起了新一轮AI浪潮。

大模型兴起，对数据标注本是利好，然而也加剧了标注团队的内卷。

提起接活，小代说，现在市场上80-90%的标注项目，单价被压得非常低，“因为中间的转包商太多了”，“都想赚差价，不想真的干活”。他在众包平台做过两年标注员，今年创业，组建自己的标注团队。

数据标注的利润不高。以自动驾驶的2D拉框来说，大公司的派单价格是一毛一个，接活的标注团队是8分一个。“现在降到5、6分。”小代说。他算了一笔账，如果低于8分，他只能亏本。

为了生存，小代大部分时间都在找项目，混迹于各种平台、贴吧。项目真真假假，不靠谱的居多，小代吃过亏，有一个项目的钱，等了8个月还没到账。

后来，他先当兼职标注员，试标、结账没问题，才会让团队接活。有回听说平台半夜3点会放一批项目，他提前定闹钟去抢单。

人员流失、单价压低、回款不稳定，像肿瘤一样，拖垮了这行业里的多数小公司。

没有一个标注员不嫌弃这份工作，他们挣不到钱，更看不到晋升空间和发展机会，陷入漫长的沮丧和失落。

就在写这篇稿子的过程中，36氪接触的标注员大多都离职了。一个女孩说，她一共做了两个月，到手工资，只有不到三千块。

内卷的标注员：本科率100%

过去，数据标注的门槛较低。在山东、山西、河南、贵州等地，许多数据标注公司招募了大量廉价劳动力。最常见的包括宝妈、残疾人、职校学生，只要掌握电脑的基本操作，就能进入这个行业。

来到大模型时代，一场关于数据标注的洗牌和淘汰，正在候选人中悄然进行。

研究人员发现，训练数据的质量对模型性能有非常大的影响。比起数据量，拥有更高的数据质量，模型的改善效果就更明显。为了把控数据质量，一些AI公司组建了自己的标注团队，第一步就是提高入行门槛。

最明显的，标注员的学历开始卷起来。

今年四月，一家头部大模型厂商建立了数据标注基地，招募的第一批标注员，本科率达到100%。公司负责人解释，大模型数据涉及的知识面广，评判标准复杂，非常考验标注师的语言理解能力和逻辑推理能力。

小王刚从大学毕业，回老家找工作时，偶然刷到这个数据标注基地的招聘。于是他参加了面试，顺利通过。基地给他发来一份长达30万字的培训材料，只有通过培训考试，才能正式上岗。

标注员每天都在做题。新人一天40道题，熟练工则是70-80道。后台系统给每个人发放题目，大多数是真实用户和大模型的对话记录。用户的问题囊括四海，甚至千奇百怪：这三款手机哪个更好？鸡蛋好吃还是扭蛋好吃？成功人士的标准是什么？林黛玉为什么要打白骨精？

大模型会有好多个回答，而小王的工作就是阅读每一个回答，挑出错误，并按照质量逐一打分，5分是满分，1分最低，而3分以下的答案，还需要划分错误类型。答非所问，直接给最低分，要是碰到敏感问题，则不打分，判为“其他”。

排序、打分、评估，这些略显复杂的标注环节，正是所谓的RLHF（Reinforcement Learning from Human Feedback，即从人类反馈中强化学习），目的是为了让大模型与人类价值观、思维方式不断对齐，更加可用。OpenAI训练ChatGPT的过程中采用了RLHF，取得了显著的效果。

和过去的数据标注相比，大模型的标注规则更加主观。一位算法工程师在面试标注员时，会问对方这样的问题：“如果你是企业领导，面对孙悟空、猪八戒、唐僧、沙僧这四类员工，你会更倾向于录用谁？”

没有标准答案，他说。这类问题是为了考察标注员有没有逻辑思维能力。

行业对人才的需求变得迫切。一家名叫恺望数据的初创公司，正在与高校合作，培训大批高校学生标注员。CEO于旭说，公司去年打造了“恺望数据学院”，已培训50所学校，超过1500名学生从事数据标注。

当小王给大模型的回答打分时，他经常需要做一些事实核查，工作量全凭运气。有一回碰到一个题目：宝马3系和奔驰C系哪个比较好？大模型分别罗列了两款车的40个参数，每个参数都需要小王查验。那道题他足足花了半小时。

做标注有一段时间，小王发现他打的分很少超过3分，“AI的回复还没有到能让我觉得很满意或者很出彩的程度”。他记得有道题是“蓝牙耳机坏了，是去看牙医还是看耳机厂商”，显然是钓鱼问题，但AI的回答让他眼前一亮，“它说是去修理，而不是去医院”。

小王对这份工作感到满意。他每月的底薪是1800元，全勤奖200元，房补200元，算上绩效，一个月可以拿到4000元。他说，在当地这个收入算中上水平。他还拉上了自己的发小，两人坐在相邻的工位。

与小王同期培训的大学生大约20多人，没两天就跑得差不多，只剩两三人。

但我们不必为公司担心，这里永远不缺大学生。一个CTO向36氪吐露了真相：你去看看现在大学生的就业状况嘛。

最想淘汰人工标注的，不是AI

必须承认，关于数据标注的报道有很多，人们达成的共识包括，这份工作是“互联网的流水线”，很难长期做下去，以及人工标注最终会被AI取代。

过去一个月，我们花了大量时间和算法工程师、AI公司交流。虽然没有刷新上述共识，但能隐隐感到，最想淘汰人工的或许不是AI。在AI真正动手之前，那些掌握最先进技术的人已经举起镰刀。

在技术世界，数据的重要性不言而喻。算法工程师小段说，如果一个AI业务没有标注过的数据，他们写出再好的算法，也会是一盘散沙。标注数据越多越好。薅尽标注员羊毛，是一件稳赚不赔的买卖。

有时，标注员们花四五天做完的数据，算法一小时就能跑完。小段供职于一家互联网大厂，部门预算充足，养了几名全职标注员。“我们尽量不想让标注员闲着。”他说，“领导会看周报，如果觉得任务不多，就让我们多投放一些任务给他们。”

一位标注员告诉36氪，虽然共事的程序员嘴上会说，每个工种都有存在的价值，但仍会不经意间流露出一丝轻视。“当然了，这群人本身就是技术至上。”标注员自我安慰道。

技术的进步速度远超所有人预期，来到大模型时代，数据质量将直接影响到模型的性能。弄明白这一点，一些AI公司毫不犹豫地告别了数据标注外包商。

“拿回来的数据质量太差，基本没法用。”一家AI公司的CTO说。他们的核心业务是做AI生成视频，为此自研了一款模型，能够无限量生成电商产品视频。为了训练模型，他们特意招了50名大学生做数据标注。

如果涉及医疗、金融、计算机等专业领域，大学生也很难被信任。国内一家互联网大厂除了自建标注基地，还会花钱请专业人士来标注。尽管专业人士在标注行业的占比仍然很小，但作用相当明显。比如，一个关于社保断缴的问题，交给熟悉政府文件的专业人士，最让人放心。

一个公开的秘密是，早在ChatGPT走红前，OpenAI就组建十几位博士生来“打标”。八年时间，OpenAI光是训练模型就花了10亿美元。

今年五月，美国一家数据公司开始招聘特定领域的专业人士。这些高级标注员的报酬不再是白菜价，比如法律数据的标注时薪是45美元，诗歌则是25美元。

不过，做标注的无论是蓝领还是白领，在一些AI公司的眼里，都是想要节省的成本。和这些公司交流时，36氪频繁听到一个词：降本增效。

最常见的办法是，利用AI进行自动化标注。一家数据公司表示，自动化标注的比例已经达到70%以上。

而算法工程师小李和同事正在做更加前沿的尝试：只要以一小部分的真实数据为蓝本，通过生成式AI技术和一系列算法，就能合成高质量的、可供训练的数据。换句话说，完全不需要人了。

“我们合成数据的售价比人工标注的要便宜一点。”小李说。

合成数据目前主要用在自动驾驶和机器人领域。小李说，当ChatGPT出来后，他便意识到标注数据可能走不通了，最后都要用合成数据。OpenAI创始人Sam Altman也有类似的看法：“合成数据是解决大模型数据短缺的最有效办法”。

初创公司光轮智能主要做自动驾驶和机器人领域的合成数据。“自动化标注的终局就是没有标注，”CEO谢晨说，“大部分标注公司没有看到那么长远。”

谢晨向36氪提到，团队有名同事，此前在一家主机厂做自动化标注，攻克了更复杂的4D-BEV标注。这是业界领先的标注工具，在3D空间中以时间为第四个纬度进行标注，提升自动驾驶系统性能。今年他决心放弃自动化标注，主动找到谢晨，最后入职了光轮智能。

这名同事就是小李。他表示，生成式AI的出现一度让他非常焦虑，但看到合成数据后，他重新兴奋起来。

他的工作目标之一就是“取代（标注）这行业的人”，但又不好意思把话说绝，“很可能就在短期内，可能一两年。”

最后，让我们回到标注员的世界。这里几乎感受不到由技术飞快发展而产生的焦虑。这里只有琐碎、重复的烦躁，还有一些天真的幻想。

大学生小王仍然在老家训练大模型。我们最近一次聊天，他说，这份工作是一个进入人工智能领域的机会。公司为他们设定的晋升途径是，标注员到质检员、培训师，再到主管，最后是项目经理。小王的目标是当上主管，然后跳槽去一个离AI更近的岗位。具体是什么，他还不知道。

与有雄心的小王相比，多数标注员对AI没有什么兴趣。有个女孩给出解释，“不太关注高科技。”她做了两年标注，已经是资深员工，不久前晋升为质检员。对她来说，标注工作简单、稳定，“没有精神内耗”，偶尔还能摸鱼。AI搅动科技圈的这一年，她的日子平静如水。

为数不多的变化是，公司提供的标注工具中多了一个对话机器人。公司告诉大家，在标注时碰到不懂的问题，直接向机器人提问就行，节省时间。效率提升很快，她告诉36氪，之前拉框，一天最多做完五六百个，现在能做七百多。

“多亏了那个机器人。”她说。还没人告诉她，那叫ChatGPT。

（应受访者要求，文中部分人物为化名。36氪作者邓咏仪对文章亦有贡献。）

Tags：数据标注员点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

数据标注员，困在大模型里

图片来源：由无界 AI生成在一家互联网大厂做数据标注的小颜，时常在公司感到一种隔绝。小颜的工位，跟产品经理、程序员们挨在一起，他们能享受相同的福利：同样的工牌、苹果电脑；随时...【详细内容】

2023-09-26　　Search: 数据标注员点击:(365)　　评论:(0)　　加入收藏

▌简易百科推荐

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(1)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(2)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

收入越高，生育率越低！真	北京、广州相继上调公
“龙年龙月龙日龙时”	20元引发的官司：“仅退
网约车抽成“套路”多	A股分拆上市密集改道：
探访“中国黄金第一家	藏在AI背后的“吃电狂