您当前的位置：首页 > 电脑百科 > 人工智能

AI圈公开的秘密：天下模型一大抄

时间：2024-04-17 12:01:23 来源：华尔街见闻作者：

+ 加入收藏

抄袭已经成为AI世界公开的秘密。

据The Information周一的文章，许多初创公司的AI聊天机器人很可能是采用了OpenAI和其他公司的数据开发的。这些机器人在某些任务上可以媲美GPT-4，但收费只是后者的一小部分。

初创公司在开发过程中没有披露使用OpenAI的技术。不过，The Information报道称，OpenAI首席执行官Sam Altman去年夏天告诉初创公司创始人，可以接受初创公司以这种方式使用OpenAI的技术。

虽然Altman的回应让一些初创公司松了一口气，但这种做法实质上损害了OpenAI的增长，Altman随时可能改变主意。

在初创公司中，抄袭已成常态

初创公司抄袭OpenAI的具体做法是，先开通GPT-4的会员，然后向它提出一系列问题，例如“这行代码有什么问题？”他们使用这些问题和答案来训练自己的竞品模型。

采取这一策略的初创公司不在少数。

Unsloth AI联合创始人Daniel Han估计，他大约一半的客户从GPT-4或Anthropic的Claude模型中获取数据，并用它来改进自己的模型。许多公司也从ShareGPT获得此类数据，ShareGPT是一个开发人员分享使用OpenAI模型生成答案的网站。

小型开发商的模型通常基于Meta Platforms或Mistral AI免费提供的流行开源模型，但通过融合OpenAI模型的答案，可以显著提高这些模型输出内容的质量。Han表示，一些开发人员正在使用一项名为OpenPipe的服务来自动化这一过程。

“在一个尚未建立明确规则的新生态系统中，就会发生这种情况，”Menlo Ventures董事总经理Matt Murphy表示，该公司投资了OpenAI的竞争对手Anthropic。Murphy说：

如果大家都使用相同的数据，你怎么能比其他人更出色呢?

目前尚不清楚OpenAI、谷歌、Anthropic和其他大型开发商会在多大程度上允许初创对手利用他们的数据进行追赶。

Radical Ventures合伙人Rob Toews表示：

AI模型的训练数据的质量和来源正成为最重要的热点问题之一。没有人确切知道事情将如何发展，但任何没有对(数据来源)进行周密和战略考虑的AI初创公司都在落后。

如果那些在开发模型时暗中依赖其他AI服务的开发商被曝光，它们可能会面临尴尬的处境。

比如，总部位于巴黎的Mistral使用Meta的开源AI 模型Llama 2创建了自己的AI，但直到无意泄露才披露这一事实，引起了一些开发者的不满。Mistral已经筹集了数亿美元的资金。

大公司也一样？

实际上，初创公司利用OpenAI数据训练模型的做法，与OpenAI等AI巨头的做法并无二致。

OpenAI首席技术官Mira Murati上个月在回答有关该公司是否使用谷歌旗下YouTube以及Meta Platforms旗下Facebook和Instagram的数据来训练生成AI视频的Sora时表现出了犹豫和困惑。

如果OpenAI真的使用了这些数据，也不足为奇。

据《纽约时报》最近的报道，OpenAI创建了一个名为Whisper的语音识别工具，用于转录YouTube视频，以此来改进GPT-4。此前，也有媒体曾报道称，OpenAI暗中使用YouTube数据训练其早期的AI模型。

就在本月早些时候，YouTube CEO Neal Mohan还表示，他不赞成OpenAI使用YouTube视频来开发像Sora这样的文生视频模型。

这种行为也导致OpenAI招致了侵权官司。《纽约时报》公司去年12月起诉OpenAI及其最大支持者微软，指控他们在训练模型时非法复制了该报的新闻文章。诉讼称，OpenAI的聊天机器人“可以逐字逐句地生成时报内容”。

作为回应，OpenAI辩称，它已努力与新闻出版商建立合作关系，其训练做法属于美国版权原则“合理使用”所允许的范围。

尽管如此，OpenAI和谷歌都与Axel Springer等出版商达成了数百万美元的许可协议，并与Reddit等主要网站达成了更大的交易。

即使是科技巨头也难以抗拒捷径的诱惑。

The Information报道称，谷歌曾转录YouTube视频，Meta雇佣承包商总结受版权保护的书籍，Adobe使用Midjourney的AI生成照片，均是为了训练自家AI模型。一位谷歌工程师因担忧公司使用OpenAI的ChatGPT数据而辞职。

初创公司Lamini的CEO Sharon Zhou表示，AI开发的快速步伐和激烈竞争迫使开发者求助于有争议的训练数据来源，如受版权保护的内容或LLM。

Tags：AI圈点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

AI圈公开的秘密：天下模型一大抄

抄袭已经成为AI世界公开的秘密。据The Information周一的文章，许多初创公司的AI聊天机器人很可能是采用了OpenAI和其他公司的数据开发的。这些机器人在某些任务上可以媲美GPT...【详细内容】

2024-04-17　　Search: AI圈点击:(0)　　评论:(0)　　加入收藏

当心AI圈“李鬼”！Meta：假冒ChatGPT的恶意软件正激增

随着全球对AI聊天机器人ChatGPT的兴趣高涨，一些黑客也开始利用这一热潮。美东时间周三，Facebook的母公司Meta发布安全报告称，近期发现与ChatGPT相关的恶意软件正在激增。一些恶...【详细内容】

2023-05-04　　Search: AI圈点击:(95)　　评论:(0)　　加入收藏

AI圈集体点评ChatGPT：堪比登月，回复圆滑，还是焦虑制造者？

文 | 新浪财经原祎鸣昨天下午，《财之道》就网友关心的问题，现场实测了ChatGPT的应答能力。同时邀请了多位嘉宾，深入探讨了ChatGPT的前沿技术、商业变现能力以及人类焦虑等问题...【详细内容】

2023-02-09　　Search: AI圈点击:(191)　　评论:(0)　　加入收藏

▌简易百科推荐

AI圈公开的秘密：天下模型一大抄

2024-04-17　　　　华尔街见闻　　Tags:AI圈　点击:(0)　　评论:(0)　　加入收藏

“AI+”进入中学课堂，家长何以很矛盾？

据4月15日《中国青年报》报道，近年来，随着ChatGPT等模型的快速迭代，生成式人工智能(AIGC)技术逐渐成为大众广泛关注的焦点。新技术的发展给各行各业带来新的可能和挑战，对教育领...【详细内容】

2024-04-17　　　　工人日报　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

Sora加入Adobe全家桶，视频改图加戏样样行

基于 Adobe 自己的大模型 Firefly 的能力，可以在视频素材上直接添加或减少内容，转场时感觉少点烘托背景的镜头，用 OpenAI 的 Sora 可以自动生成一段。Adobe 全家桶马上就要拥有...【详细内容】

2024-04-16　　　　机器之心　　Tags:Sora 　点击:(0)　　评论:(0)　　加入收藏

光明日报：孩子用AI写作业，该担忧吗？

随着科技的发展，人工智能技术不断得到拓展与完善。而今，文字输出、信息检索、方案优化，乃至居家生活，越来越多的人已经离不开AI的帮助。与此同时，根据媒体报道，近期，一些“独具慧眼...【详细内容】

2024-04-16　　　　光明日报　　Tags:AI写作业　点击:(5)　　评论:(0)　　加入收藏

“弱智吧”成最佳中文AI语料库，究竟什么算优质数据？

出品｜搜狐科技作者｜郑松毅谁能想到，被誉为“最大原创段子手孵化地”的弱智吧，最近竟摇身一变成了——最佳中文AI训练语料库？由此受到启发，是否并不是训练AI的优质数据不...【详细内容】

2024-04-16　　搜狐科技　　　　Tags:优质数据　点击:(3)　　评论:(0)　　加入收藏

ChatGPT 应用商店？可能是一个万能应用程序！

OpenAI 在去年 11 月召开了一次开发者大会，首席执行官 Sam Altman 希望软件制造商在 ChatGPT 之上进行进一步的构建。OpenAI 表示，它将很快推出一个市场，开发人员和非技术人员...【详细内容】

2024-04-12　　视角先锋队　　　　Tags:ChatGPT 　点击:(9)　　评论:(0)　　加入收藏

Kyligence发布企业级AI解决方案！AI数智助理降低数据使用门槛

智东西作者 | 长颈鹿编辑 | 李水青智东西4月12日报道，昨日大数据分析和指标平台供应商Kyligence（硅智信息）召开了数智论坛暨春季发布会，并分享和探讨Data+AI产品及解决方案在金...【详细内容】

2024-04-12　　　　智东西　　Tags:Kyligence 　点击:(7)　　评论:(0)　　加入收藏

百度Create AI剧透：“三大开发神器”升级，模型增至77个，三步即可生成应用

智东西（公众号：zhidxcom）作者| 香草编辑| 李水青智东西4月11日报道，今日，在百度Create AI开发者大会预沟通会上，百度披露了“三大开发神器”AgentBuilder、AppBuilder、ModelBuild...【详细内容】

2024-04-12　　　　智东西　　Tags:Create AI 　点击:(7)　　评论:(0)　　加入收藏

李彦宏最新内部讲话：开源大模型不如闭源，后者会持续领先

界面新闻记者 | 李如嘉界面新闻编辑 | 宋佳楠4月11日，界面新闻获悉，百度创始人、董事长兼首席执行官李彦宏在一场内部讲话中首次谈及文心大模型为何不开源，以及对于大模型开源...【详细内容】

2024-04-12　　　　界面　　Tags:李彦宏　点击:(8)　　评论:(0)　　加入收藏

AI未来或超越“最聪明的人”？专家谈发展如何兼顾公平

中新社北京4月11日电 (记者马帅莎)到明年底或2026年，人工智能(AI)或超越“最聪明的人”，美国知名企业家埃隆·马斯克近日对人工智能的这一大胆猜想引起关注，这比他去年...【详细内容】

2024-04-12　　　　中国新闻网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

推荐资讯

AI圈公开的秘密：天下模	聚焦“一房二卖”等问
今年买二手房最划算？70	周鸿祎力挺手机支架
Android 15 有望引入	全球首个AI程序员Devi
“刘强东”直播首秀，释	A股突发！美联储传来大

站内最新

栏目相关

· AI圈公开的秘密：天下模型一大抄

· “AI+”进入中学课堂，家长何以很矛盾？

· Sora加入Adobe全家桶，视频改图加戏样样行

· 光明日报：孩子用AI写作业，该担忧吗？

· “弱智吧”成最佳中文AI语料库，究竟什么算优质数据？

· ChatGPT 应用商店？可能是一个万能应用程序！

· Kyligence发布企业级AI解决方案！AI数智助理降低数据使用门槛

· 百度Create AI剧透：“三大开发神器”升级，模型增至77个，三步即可生成应用

· 李彦宏最新内部讲话：开源大模型不如闭源，后者会持续领先

· AI未来或超越“最聪明的人”？专家谈发展如何兼顾公平

· 行业大模型快速落地的一年，如何做？

· 互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

· 藏在AI背后的“吃电狂魔”

· OpenAI和谷歌再起纷争：AI的尽头是内容

· AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

· 和“数字人”交朋友，当心隐私被出卖......

· AI“复活”成产业链：成本可降至数百元

· 多方热议人工智能产业新机遇

· 人形机器人时代来了吗

· AI重塑社交：腾讯与字节跳动的新赛场

站内热门