IT之家 10 月 9 日消息,AI 大模型是近年来人工智能领域的热门话题,它们可以实现各种令人惊叹的功能,如生成逼真的文本和图像,或者与人类进行流畅的对话。但这些大模型的背后,却有着一群默默无闻的数据标注员,他们每天为了给原始数据添加标签而辛苦工作,为 AI 技术提供训练所需的海量数据。
图源 Pixabay
数据标注员们的工作并不轻松,他们需要面对枯燥无味的任务,低廉的收入,长期的不稳定和随时可能被取代的风险。他们是 AI 技术发展的基石,却很少得到关注和尊重。
据《Tech 星球》报道,数据标注员们采用最原始的计件制算工资,大部分从业者每个月的收入都不过 5000 元。他们中有些人是专科毕业生,有些人是宝妈,有些人是转行者。他们在三四线城市的格子间里处理图片、文字、语音等数据,为互联网大厂和车企提供服务。
IT之家注意到,数据标注行业也经历了起伏。2017 年,AI 技术期望爆棚时,数据标注员们可以赚到高额收入,一个 2D 拉框就有 5 毛钱。但随着行业竞争加剧和技术发展不顺利,数据标注的单价越来越低,现在最低只有 4 分钱。
数据标注公司也面临着巨大的压力。他们需要具备一定的规模和资金储备才能从源头获取订单,并且要承担回款周期长、员工流动性大、质量和周期不稳定等问题。海天瑞声是目前数据标注行业内首家主板上市公司,去年利润率刚刚超过 10%,今年上半年就陷入了亏损。
更让数据标注员们担忧的是,他们可能很快就会被自己参与创造的 AI 所取代。国内外都有一些公司正在开发可以自动标注数据的工具,利用市面上主流的大模型来对数据集进行标注。这些工具声称可以提高标注效率和降低成本,并且达到与人工相近甚至超过人工的准确率。
当然,并不是所有的数据标注都可以被 AI 取代。一些需要专业知识和逻辑分析能力的数据标注仍然需要人工参与,比如医疗、金融、自动驾驶等领域。但这也意味着行业的门槛将会不断提高,对于数据标注员们而言,要想在这个行业生存下去,可能需要更多的学习和努力。