您当前的位置:首页 > 新闻资讯 > 科技

科技巨头狂撒千亿美元 “买照片”,只为训练AI模型?

时间:2024-04-10 13:49:26  来源:镁客网  作者:

高质量的数据,越来越值钱。

你能想象,那些被遗忘在网盘的陈年老图,有朝一日能价值千金?

就在最近,路透社报道称,苹果公司正与图像托管网站Photobucket协商,希望得到这家公司近130亿张照片、视频组成的庞大图像库,并以此来训练AI模型。

苹果不是这家网站的唯一买家,其他硅谷大厂们都在寻求与之达成协议。而这些巨头们也毫不吝啬,甚至愿意掏出数十亿美元的真金白银购买这些素材。

不只是Photobucket,Reddit、YouTube等知名网站都成了科技巨头们的疯抢目标。

苹果为训练AI买图片,网友担忧隐私

Photobucket是一个提供影像寄存、视频寄存、幻灯片制作与照片分享服务网站,成立于2003年。在当时,用户把这个网站当作个人相册,与功能与现在流行的在线相册非常相似。

在巅峰期,该网站曾拥有7000万用户。而到2007年,Photobucket就声称已有超过28亿张图像上传到其网站。不过随着越来越多的功能更强大的在线相册App出现之后,这种网站式的在线相册也逐渐失去了热度。

不过毕竟是一家成立二十多年的网站,别的不说,数据是真的多,130亿张图片与视频,足够AI模型消化很久。

据悉,苹果购买的图片的主要目的就是提高生成式AI的水平

除此之外,苹果公司在早些时候与另一家图片素材网站Shutterstock达成了数百万张图片的授权协议,据悉这笔交易的价值在2500万美元到5000万美元之间。

随着 今年6月份WWDC大会日益临近,每个人都在期待苹果公司能带来“令人惊叹”的AI功能。

但和上笔交易不同,不少网友开始为了隐私担心。有人评论表示,Photobucket的图片来源都是基于网友的“托管,这就意外着这些图片虽然已经是陈年老图,但仍属于用户的个人秘密。

而Shutterstock的数据大多是免版税的图片、矢量图和插图库,包括影片剪辑以及音乐曲目,本身就可以授权给用户使用。这么一对比,网友对于Photobucket的数据隐私安全问题也可以理解了。

除了涉及隐私以外,不少网友还对这些库存照片的质量提出了质疑。如果给AI喂食这些本来就带有错误的图片,那么是否会生成质量更低的图片呢?

总之,就苹果购买Photobucket图片的行为,大多数网友并不赞同。

但即使冒着泄露隐私的风险,苹果和其他公司们还是得“铤而走险”搞来这些数据。主要原因还是高质量的互联网数据,可能没几年就要耗尽了。

其实早在多年前,各大科技巨头就已经碰到训练语料缺失的瓶颈。

据《纽约时报》报道,OpenAI在训练GPT-4时,就曾遇到英文文本资料缺失的情况。

为了处理这个问题,OpenAI推出一款名为Whisper语音识别工具,用来转录谷歌旗下视频平台Youtube的视频音频,生成大量的对话文本。

据报道称,这款工具以开源的名义转录了超过一百万小时的Youtube视频,实际上已经违反了Youtube的隐私规则,而这些资料也成为ChatGPT的基础。

这并不是OpenAI第一次因为偷扒数据犯错。包括《纽约时报》在内,多家数字新闻媒体对OpenAI提起版权侵权诉讼,认为他们的数千篇报道被OpenAI用来训练ChatGPT。

当然,通过“爬虫”等手段搜刮训练数据的科技公司不止OpenAI这一家,“受害者”谷歌也曾通过修改服务条款的方式,将“使用公开信息训练AI模型”偷偷写进隐私细则中,从而允许工程师们利用公开的文档、在线资料等开发AI产品。

不过随着OpenAI在版权问题上越陷越深,其他科技巨头也只能乖乖掏钱为训练数据付费

至少比起互联网上免费抓取的数据,Photobucket近130亿的数据量还是相对来说质量更高点。

花钱买数据,或许还不够

可怕的是,即便是130亿的数据量,也可能喂不饱现在的AI的模型。

研究机构Epoch直白地表示,现在科技公司使用数据的速度已经超过数据生产的速度,这些公司最快会在2026年就耗尽互联网上的高质量数据。

有数据统计,在2020年11月发布的GPT-3上,使用了3000亿个Token的训练数据。而到了2024年,谷歌PaLM 2的训练数据量则达到3.6万亿个Token。

数据量是一回事,数据的质量更是直接影响AI大模型的生成能力。正如网友所担忧的那样,低质量的数据甚至可能让AI陷入不可逆转的方向。

面对这样的问题,OpenAI开始尝试使用合成数据(AI生成的数据)来训练AI。这样既可以减少对受版权保护数据的依赖,同时也能训练出更强大的结果

对此OpenAI和一系列机构开始研究使用两个不同的模型来生成更有用、更可靠的合成数据,其中一个模型用来生成数据,另一个则用来对生成的数据进行审核。

不只是OpenAI,英伟达很早就在用合成数据弥补现实世界的数据。在2021年11月,英伟达对外推出合成数据生成引擎Omniverse Replicator 。

英伟达将其描述为“用于生成具有基本事实的合成数据以训练 AI 网络的引擎”,其作用就是用来训练AI。

此产品推出后,由该引擎生成的合成数据在自动驾驶、机器人等多个场景里都得到了验证,因此英伟达也在近些年希望将其推广到更多领域,包括聊天机器人。

然而,合成数据在工业场景里的成功案例,并不代表在其他领域都能遵循物理规律。

有时候AI连真实图片都无法理解,更不要说理解二次生成的图片了

本文作者:jh,观点仅代表个人,题图源:网络



Tags:AI模型   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
科技巨头狂撒千亿美元 “买照片”,只为训练AI模型?
高质量的数据,越来越值钱。你能想象,那些被遗忘在网盘的陈年老图,有朝一日能价值千金?就在最近,路透社报道称,苹果公司正与图像托管网站Photobucket协商,希望得到这家公司近130亿张...【详细内容】
2024-04-10  Search: AI模型  点击:(0)  评论:(0)  加入收藏
十大AI模型盘点,每一个都是强者!
2023年,大环境波诡云谲,科技圈浪潮依然奔涌不停。大模型打开AI新世界,Vision Pro引领空间计算,智能电车超越油车,拼多多“新王”已立,智能手机狂卷创新,新硬件层出不穷,鸿蒙系统加速...【详细内容】
2023-12-27  Search: AI模型  点击:(168)  评论:(0)  加入收藏
如何收集和准备AI模型的训练数据
在人工智能(AI)领域,训练数据是培养和训练AI模型的关键。高质量的训练数据对于AI算法的准确性和性能至关重要。本文将为您介绍如何收集和准备AI模型的训练数据,以确保模型的质量...【详细内容】
2023-11-20  Search: AI模型  点击:(147)  评论:(0)  加入收藏
Adobe研究人员研发新AI模型LRM:实现从2D样本瞬时生成3D图像
由Adobe Research和澳大利亚国立大学(ANU)联合研发的人工智能模型宣布了一项突破性的成果,能够从单一的2D图像中生成3D图像。研究人员表示,他们的新算法在大规模图像样本上进行...【详细内容】
2023-11-14  Search: AI模型  点击:(160)  评论:(0)  加入收藏
让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了
电子游戏已经成为如今现实世界的模拟舞台,展现出无限可能。以游戏《侠盗猎车手》(GTA)为例,在 GTA 的世界里,玩家可以以第一人称视角,在洛圣都(游戏虚拟城市)当中经历丰富多彩的生活...【详细内容】
2023-11-10  Search: AI模型  点击:(240)  评论:(0)  加入收藏
如何训练AI模型:从数据准备到模型优化
人工智能(AI)已经成为了当今世界最热门的技术领域之一。与传统的编程模式不同,AI 可以学习人类的行为模式,自动地进行决策和预测。这种能力的实现依赖于训练出高质量的 AI 模型...【详细内容】
2023-11-03  Search: AI模型  点击:(239)  评论:(0)  加入收藏
首次曝光!OpenAI遭遇罕见挫折,中断开发新AI模型
来源:腾讯科技比GPT-4运行成本更低的Arrakis模型,因表现不及预期被叫停。去年年底,当聊天机器人ChatGPT开始在全球引发轰动的时候,人工智能研究公司OpenAI的工程师们就已经开始...【详细内容】
2023-10-19  Search: AI模型  点击:(146)  评论:(0)  加入收藏
AI风口来袭,Adobe(ADBE.US)推出全新AI模型引领平面设计革命
智通财经APP获悉,提供Photoshop、Illustrator等热门软件产品的科技巨头Adobe(ADBE.US)宣布了其生成式人工智能模型Firefly的多个新版本,承诺提供更高质量的图像和生成新型媒体内...【详细内容】
2023-10-13  Search: AI模型  点击:(269)  评论:(0)  加入收藏
推特更新服务条款:禁止第三方抓取数据来培训AI模型
新浪科技讯 北京时间9月8日晚间消息,据报道,X公司(推特)日前更新了服务条款,在未经许可的前提下,任何第三方都不得在X平台上抓取数据来培训人工智能(AI)模型。该条款将于9月29日起生...【详细内容】
2023-09-09  Search: AI模型  点击:(113)  评论:(0)  加入收藏
谷歌推出第五代AI芯片:训练和运行AI模型的速度提高5倍
谷歌第五代定制张量处理器(TPU)芯片TPU v5e用于大模型训练和推理,训练和运行AI模型的速度提高了5倍。与上一代芯片相比,TPU v5e每一美元的训练性能提高2倍,每一美元的推理性能提...【详细内容】
2023-08-30  Search: AI模型  点击:(140)  评论:(0)  加入收藏
▌简易百科推荐
英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电
新华财经上海4月11日电 当地时间4月9日,英特尔在Vision 2024客户和合作伙伴大会上宣布推出最新AI芯片产品Gaudi 3加速器。英特尔称,相比英伟达的H100 GPU,Gaudi3 AI芯片的模型...【详细内容】
2024-04-11    上海证券报  Tags:英特尔   点击:(2)  评论:(0)  加入收藏
AI“复活”亲人成生意,哪些红线待划定?
提供一张照片、一段10多秒的音频,即可让逝者在视频中“活”过来——AI“复活”亲人成生意,哪些红线待划定?本报记者 陶稳《工人日报》(2024年04月11日 06版)阅读提示...【详细内容】
2024-04-11    工人日报  Tags:AI   点击:(2)  评论:(0)  加入收藏
科技巨头狂撒千亿美元 “买照片”,只为训练AI模型?
高质量的数据,越来越值钱。你能想象,那些被遗忘在网盘的陈年老图,有朝一日能价值千金?就在最近,路透社报道称,苹果公司正与图像托管网站Photobucket协商,希望得到这家公司近130亿张...【详细内容】
2024-04-10    镁客网  Tags:AI模型   点击:(0)  评论:(0)  加入收藏
谷歌推出适用于安卓设备的“查找我的设备”网络
IT之家 4 月 9 日消息,谷歌今日推出了适用于安卓设备的“查找我的设备”网络,其功能类似于苹果的“查找”网络,旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到,与苹果的“...【详细内容】
2024-04-09    IT之家  Tags:安卓   点击:(2)  评论:(0)  加入收藏
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
2026年的数据荒越来越近,硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天AI忽然吐出了我们的...【详细内容】
2024-04-09    新智元  Tags:硅谷   点击:(2)  评论:(0)  加入收藏
谷歌搜索史上最大变革!考虑对AI搜索收费
快科技4月7日消息,据国外媒体报道,谷歌正计划对由生成式人工智能驱动的新高级功能收费,这将是谷歌搜索业务历史上最大的一次变革。自2000年以来,谷歌的搜索产品一直依靠广告盈利...【详细内容】
2024-04-08    快科技  Tags:谷歌搜索   点击:(8)  评论:(0)  加入收藏
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08    环球网  Tags:AI   点击:(9)  评论:(0)  加入收藏
训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
全网真的无数据可用了!外媒报道称,OpenAl、Anthropic等公司正在努力寻找足够的信息,来训练下一代人工智能模型。前几天,OpenAI和微软被曝出正在联手打造超算「星际之门」,解决算...【详细内容】
2024-04-08    新智元  Tags:GPT-5   点击:(2)  评论:(0)  加入收藏
当“机器人”有了“AI大脑” 人形机器人时代来了吗
数智风向标当“机器人”有了“AI大脑”​人形机器人时代来了吗简单明了的口令下达后,机器人便开始搬箱子、运小球,在各类不同的地形行走……这些身上布满芯片和传...【详细内容】
2024-04-08    中国青年报  Tags:机器人   点击:(5)  评论:(0)  加入收藏
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07    IT之家  Tags:OpenAI   点击:(7)  评论:(0)  加入收藏
站内最新
栏目相关
  • · 英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电
  • · AI“复活”亲人成生意,哪些红线待划定?
  • · 科技巨头狂撒千亿美元 “买照片”,只为训练AI模型?
  • · 谷歌推出适用于安卓设备的“查找我的设备”网络
  • · 你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · 为训练AI,OpenAI等科技巨头花式淘数据
  • · 训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
  • · 当“机器人”有了“AI大脑” 人形机器人时代来了吗
  • · 报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
  • · 量子计算会和经典计算一样融入人们的日常生活
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
  • · 哥伦比亚大学华人开发「人脸机器人」,照镜子自主模仿人类表情超逼真
  • · 谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录
  • · GPT商店热度不尽人意 仅用在写论文和炒股票上较受欢迎
  • · 距实现全球安全量子通信更近一步:量子点源产生近乎完美纠缠光子对
  • · 中国三大运营商共同发布通过GSMA Open Gateway认证的一次性密码 API
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · 国家数据局局长刘烈宏:充分发挥数据要素价值 培育新质生产力
  • 站内热门
    相关头条
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
  • · 瘫痪8年小哥植入马斯克脑机接口,狂打8小时「文明6」!Neuralink首个人类植入者直播来了
  • · 英伟达“算力核弹”强在哪里?
  • · AI大模型之争远未落幕
  • · 世界首款!英伟达重磅发布人形机器人模型
  • · 全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场
  • · 真“Open ” AI?马斯克旗下大模型Grok宣布开源:参数量全球最大
  • · 全球首位AI程序员诞生 人类程序员会失业吗?
  • · 谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量
  • · 英伟达、微软等巨头“抱团”,AI有望助推6G时代到来 国内产业如何接招?
  • · OpenAI Sora已开放对外申请 网友爆料:可能还有其它重磅产品发布
  • · 周鸿祎再谈Sora:真正给人工智能补上了“眼睛”
  • · Sora爆火超100小时:美国狂“卷”算力,国内则卖 AI 课程“捞金”一年5000万|钛媒体AGI
  • · 爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
  • · “AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!
  • · 从居家到工作,CES 2024上演 AI硬件大秀
  • · OpenAI新年头号重磅!GPT Store上线,企业客户新品也来了
  • 站内头条