您当前的位置:首页 > 电脑百科 > 人工智能

有了ChatGPT,读书还有用吗?

时间:2023-08-16 11:27:31  来源: 腾讯研究院  作者:

李子 技术社会学博士,哥伦比亚大学医学人文和伦理系博士后研究员

上半年ChatGPT横空出世,人工智能的潜能展现,给许多职业带来了一场生存危机的探讨。GPT能够通过律师和工程师资格考试,写的大学论文能不挂科,甚至能够“理解”笑话。它能回答人们的疑问,组织生动的语言结构,模仿各式各样的语言风格;而大语言模型和图像生成 AI 结合的技术,例如Midjourney,能够让丝毫没有受过艺术训练的人,用只言片语“创造”出惊人的艺术图像。

ChatGPT 的本质,实际上是大语言模型(Large Language Model,LLM)叠加生成式人工智能。大语言模型,顾名思义,就是大,用海量的语素,用机器学习的方法训练一个计算机模型。生成式,则是用预测的方式,在对话时把最有可能出现的语素联系展示出来。

对于知识“加工”和“消费”者而言,大语言模型加上生成式人工智能的能力是巨大的。海量语素数据、深度神经网络和极大的计算力,相当于把整个来自互联网的知识“压平“,再通过人机互动进行“整装”。

从计算逻辑上来讲,ChatGPT 相当于一个更加强大的搜索引擎普通的搜索引擎例如谷歌和百度通过爬虫的模式“扒”整个互联网的信息,并通过复杂的算法进行排序。而人工智能使用机器学习的方法,相当于把这些扒出来的信息,用预测的方式进行了符合语言逻辑的整理。知识加工变得更加便捷迅速,消费变得更加简明清晰——有的时候甚至过于简便,给了考试论文作弊以可乘之机。

针对这一点,技术乐观主义者认为,既然从今以后机器能够生成的内容,或许也不需要大多数的人类去动脑实现,就如同搜索引擎取代了图书馆的馆藏卡片、计算器取代珠算一般。的确,那些需要大量重复的文字类工作,或者机械的列举、整理工作,即使 AI 不介入最终决策,确实也能够提供相当程度的生产力,辅助人类进行知识的加工和消费。

那么,读书还有用吗?各大高校、研究机构的人员,是否也可以下班了?

机器能“学到”什么

大语言模型和生成式人工智能,为将来的知识“生产者”带来了一个绕不过的课题:何为知识?如何生产多样、公正、真实的知识?

人工智能的“学习”能力是惊人的。现有的大语言模型和人工智能的应用,都脱不开机器学习作为其底色。“学习”二字,实质上是用大量的数据训练预测模型,并在预测的准确度,以及普适性上找到平衡。这种预测实际上是基于现有知识的,语言模型的预测,也是基于现有语言之间的联系。例如输入“红烧”,机器预测“肉”;然后根据更多的输入,例如地点,人,习惯等等,给出更加精确的预测,比如“外婆做的红烧牛肉”等等。

这种预测是怎么实现的呢?我们熟悉的坐标系是二维的。比如整个人群中,身高和体重有一个大致的对应关系,给出身高,机器预测一个平均体重,就是基于现有数据的预测。再加入另一个维度,比如性别,那么就成为了一个三维坐标,男女的预测会有所不同。如此下去,数据的维度可以是无限的,而机器学习的模型,就是在人脑所不能想象的多维空间中寻找此类联系,并不断调整各个维度之间的权重。比如,身高对体重的预测“有多重要”,可以在大量的数据输入之后进行调整。

因此,基于机器学习的人工智能,会把各种维度的数据,在更高维度的空间里联系起来,有发现数据之间潜在联系的能力,也会“学到”一些现实中不存在的、但很可能发生的联系。用在语言模型中,人工智能也能学习到不同的语言风格,挖掘现有文字中的“精髓”和“问题”。

数据越大,模型越成熟,其计算和挖掘能力也越高。类似于 BERT、GPT 这样诞生于大机构的 AI,被许多人认为走到了技术的“拐点”,量变产生质变也不无道理——这对于知识生产者来讲是好事。不过,大模型也有其内在的问题,模型越大,问题也越尖锐,特别是涉及到知识的多样、公正和真实方面。

怎样才能生产真实

且公正的知识?

新的知识能从现有知识的连结和新模式中产生,这一点不管是从人还是机器的层面都是成立的。然而,现有的知识是否足够?是否充分?是否公平?如果现有知识的基础是不足的、甚至是有偏见的,那么在此基础上建立的新知识也会产生偏差。

自从机器学习的AI投入大规模应用以来,学者们就在不断地揭示出这些模型内在的偏见:性别歧视、种族歧视、有违伦理的输出等等。开发者们用各种补丁和纠偏的方式去弥补,但大部分问题都潜藏于数据生产和训练过程中,而AI的偏见,亦是对社会偏见的反映和放大。

另外一个问题则是数据的质量。机器学习不仅牵涉到训练模型的能力,还有数据的数量和质量。现有的开发过程,对模型的性能有着更多的强调甚至是迷信,反而会忽视更底层的数据来源问题。现在的大部分数据都要依赖人工来清洗和格式,为数据分类、打标签等等。很多时候,这个制作数据的过程是不透明的,甚至是潦草的。比如,大公司的AI开发背后,是大量“脏乱差”的人工被外包到欠发达地区的“AI工厂”。这种过程一方面存在着劳工伦理问题,另一方面也对数据质量提出了挑战。

到了大模型时代,这个问题可能会被隐藏得更深一些:不是每个研究者或者团队都有能力从0开始开发AI模型,尤其是大语言、大图像模型,大多都是在现有模型的基础上进行微调。而大模型本身的问题和偏差,会被迁移到更多的应用模型上。而越是底层的偏差,越是难以通过微调纠偏的方式进行处理。

现有语言模型的预测生成模式,甚至还会将数据现有的偏差放大,产生“过拟合“的效果:例如,某种疾病在某个族群中统计数据占比偏高,约有60%;但若让语言模型去生成一个病人的画像,那么有超过90%的可能,生成的病人描述会属于该族群。

现在一些AI的模型训练,采用的是一种“互搏”模式——所谓“生成对抗网络”(generative adversarial.NETwork),让两个模型不断互相生成、彼此纠正。这种方式的确是提高了模型训练的效率,然而任何小的偏差,都会在这种“互搏”中被放大。同样的原理,如果一个与机器紧密合作的知识生产者,其生产依赖于这类“生成”,那么一些来自于模型的偏见,就会被嵌入更多的新知识中,新知识再被吸收为数据,又进一步加强了模型的偏差。知识生产者在这个过程中必须保持警惕。

什么是新知识?

AI 的“生成”能代表新知识吗?

所谓的新知识,究竟是什么?如果要充分使用AI来生产知识,那么知识生产者就必须要从人机的结合点去思考这个问题。任何信息,以及人类从真实世界中获取的知识,都需要被“清洗”和“格式”成数据。除了上面提到的数据质量以外,数据生成的过程也很重要。简而言之,人们要研究的问题是什么?这个问题被翻译成为了怎样的数据?这些数据是怎么被生产出来的,又是否全面、公正地代表了知识生产者们想要研究的问题?

这个问题,对于“传统”的知识生产者而言也是成立的。以历史学为例,虽然历史研究的是过去的事情,但过去的事情没有百分百能够盖棺定论的。学者们通常会不断地寻找新的史料,去补充对于历史问题的理解,去不断地挖掘过去被忽略的视角和声音。有趣的是,当下的史学,也常常会求助于大量的数据,特别是过去的经济、人口、气候数据,甚至依靠机器学习,为历史带来的新认识、新观点。

同样的,依靠机器生成的认识和观点,也有可能放大了某一些数据来源的重要性。现在的知识生产者,过于依赖那些主流的、存在于互联网的、电子的信息,去在那些已经被别人“翻译”为数据的东西上进行创造。在AI时代,AI 提供的便捷和可延展性,也会潜在地让人们更容易忽视没有被数据化、电子化的,非主流的,经验性的知识,从而错过形成新观点、新视角的可能性。

往更深层次讲,新知识往往产生于对于新材料的挖掘,不同观点、不同视角之间的碰撞,对于现有知识的重新解构。大语言模型为知识的展现提供了许多可能性,然而其内在的逻辑和架构可能是和这种生产方式相悖的。

基于大语言模型的训练方式,和模型生成输出的特征,排序靠前的、概率更高的输出内容,权重会变得更大,特征会变得更单一。“AI生成的”几乎已经变成了一个形容词,去描述那些没有特征的、不断重复、说了像是没说的片汤话。诚然,对于知识消费者而言,那些“最有可能”出现的答案大大降低了理解门槛;但对于知识生产者而言,这些东西反而有可能成为阻碍。

新时代的知识生产者

该往哪里走?

可能很多和我一样的社科研究者,都在使用ChatGPT的时候遇到过这个问题:问它解释一个概念,说得头头是道;然而问起来源,就是“一本正经地胡说八道”了,比如列举出一个作者从来没写过的书、从来没发表过的论文。领域越是狭窄、专业,“胡说”的可能性越大。

退回到 AI 的原理,这种“创造”其实也是在海量的数据中,挖掘词句“有可能”的联系,但这些联系在现实中是不存在的,说白了只是“听起来很像”。这种新现象,在当下被称为“幻视”(hallucination)。对于知识生产者而言,如何活用人工智能去挖掘现有知识库中的模式和联系,但又对机器的“幻视”保持警惕,什么存在,什么存疑,是非常重要的技能。

与AI“对话”,也会变成一个新的技能。当下的AI对于大部分非技术人员而言(甚至技术人员),依然是一个神秘的“黑箱”。如何从技术的底层或者中层入手,去更有效地与机器对话,理解和对抗“幻视”,需要知识生产者和技术从业人员的合作

而对于新知识、新视角、新材料的研究,各个领域独有的结构和诠释,在当下依然是十分关键的。大语言模型和生成式AI的预测模式,依然是倾向单一、重复的,越是训练材料少的领域,能力就越是有限。想要机器和人能力的结合,就必须从数据的生产根源上着手,去用准确的、多样的、公正的、新颖的数据训练AI模型,建立良性的人机互动模式。

大语言模型和生成式AI的问世对研究人员带来的挑战,仅仅是一个开始。与其探讨“取代”,不如在更加审慎的目光下,寻求磨合与发展的可能。



Tags:ChatGPT   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
新智元报道编辑:编辑部【新智元导读】OpenAI这份愚人节礼物,实在是太大了:今天起,ChatGPT不用注册,可以直接使用。用户狂欢,竞品颤抖,我们仿佛已经听到,谷歌搜索引擎这位巨人轰然倒...【详细内容】
2024-04-02  Search: ChatGPT  点击:(8)  评论:(0)  加入收藏
无需注册!OpenAI宣布放开ChatGPT使用限制
工智能初创公司OpenAI宣布,即日起用户无须注册即可开始使用ChatGPT的功能。OpenAI在最新公告中写道:“让ChatGPT等工具广泛可用,让人们能够体验到人工智能的好处,这是我们使命的...【详细内容】
2024-04-02  Search: ChatGPT  点击:(6)  评论:(0)  加入收藏
ChatGPT 突然放开了账户限制,面向所有人开放
大门终于打开。奥特曼 OpenAI 的旗舰产品 ChatGPT 突然宣布:将面向所有人开放,无论你有没有注册账户。从今天开始,访问 Chat.openai.com 将不再要求用户登录,用户将直接进入与 C...【详细内容】
2024-04-02  Search: ChatGPT  点击:(3)  评论:(0)  加入收藏
今天起,ChatGPT无需注册就能用了!
 来源:量子位    金磊 克雷西 发自 凹非寺  就在刚刚,OpenAI狠狠地open了一把:从今天起,ChatGPT打开即用,无需再注册帐号和登录了!  像这样,直接登录网站,然后就可以开启对...【详细内容】
2024-04-02  Search: ChatGPT  点击:(7)  评论:(0)  加入收藏
ChatGPT之父Altman两小时对谈,首聊GPT-5何时发布、llya去哪里了、Q*究竟是什么
Altman做客油管博主Lex Fridman科技博客 ,被追问了一个又一个辛辣的问题。长达两个小时的对谈,奥特曼从OpenAI宫斗、马斯克诉讼、Sora,一直聊到AGI与外星文明!本文重点梳理了长...【详细内容】
2024-03-20  Search: ChatGPT  点击:(8)  评论:(0)  加入收藏
ChatGPT主管最新访谈:未来AI和人类如何共处?
Peter Deng在最新访谈中表示:AI不会取代生产力,人类和AI只有合作才能释放真正潜力,ChatGPT比已知的更强大、最大的挑战在于理解用户需求。当地时间3月13日,OpenAI 消费产品副总...【详细内容】
2024-03-19  Search: ChatGPT  点击:(11)  评论:(0)  加入收藏
ChatGPT日耗电超50万度,大模型或带来“电荒”
未来两年内将由“缺硅”变为“缺电”,马斯克的预言可能正在变成现实。据《纽约客》杂志报道,OpenAI的热门聊天机器人ChatGPT每天可能要消耗超过50万千瓦时的电力,以响应用户的...【详细内容】
2024-03-11  Search: ChatGPT  点击:(31)  评论:(0)  加入收藏
OpenAI新功能:ChatGPT可调用自定义机器人,对话更高效!
近日,知名科技公司OpenAI推出了一项新的功能——“对话中调用(@)自定义聊天机器人”,让用户在对话中无缝切换不同领域的机器人。这一功能的出现,为用户带来了极大的便...【详细内容】
2024-02-02  Search: ChatGPT  点击:(53)  评论:(0)  加入收藏
ChatGPT元年之后,AI重塑世界,人类如何与其“智慧共生”?
过去一年,人工智能(AI)凭借大语言模型的爆火迅速进入大众视野。它比以往任何时候都更强大,也更具亲和力。这不仅给未来生活带来了新希望,也在人们心中蒙上了一层担忧—&mdas...【详细内容】
2024-01-26  Search: ChatGPT  点击:(77)  评论:(0)  加入收藏
年度最热AI应用TOP 50,除了ChatGPT还有这么多宝藏
量子位 | 公众号 QbitAI百模齐发、AI工具乱杀的一年里,谁是真正赢家?ChatGPT访问量遥遥领先位居第一,但单次使用时长没超过平均线。Midjourney访问量年度第四,但下滑量位居第二...【详细内容】
2024-01-02  Search: ChatGPT  点击:(51)  评论:(0)  加入收藏
▌简易百科推荐
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(1)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(1)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(1)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(2)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(2)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(5)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条