本来准备一篇文章搞定的,发现能讲的还挺多的。所以,先写这一篇,后面再续!都是很重要的概念!
请放心,这篇文章不是ChatGPT 生成的。是我一个字一个字敲进去的。
ChatGPT 一下子火起来。不过,对于还没有认真研究这个领域的做数字营销的朋友而言,很多术语扑面而来,理解起来太费劲。
毕竟,我们做数字营销,是ChatGPT 等AIGC技术的应用者,但不是开发者。可是,如果不了解重要概念,在应用时候就会难以真正理解背后的原理,就会被具体的功能牵着鼻子走,而难以有创新。
所以,下面这些“黑话”,以及背后的逻辑,我们有必要知道。
GPT是“Generative Pre-trained Transformer”
(生成型预训练变换模型)的缩写,目的是为了使用深度学习生成人类可以理解的自然语言。
理解人类自然语言的模型有多种,GPT只是其中的一种。另一种很著名的模型是BERT 模型(后面会讲)。
GPT也不只是用在跟你“聊天”上的ChatGPT ,它还有更底层作为基座的InstructGPT 。
目前我们讨论的GPT一般指的是GPT-3以及它的升级版GPT-3.5,但GPT目前已经到了第四版,也就是GPT-4 。
GPT-3 是由人工智能公司OpenAl 训练与开发,该模型设计基于谷歌开发的变换语言模型(Transformer 模型,后面会提到)。OpenAI 于 2020 年 5 月发表了GPT-3 的论文,微软在 2020 年 9 月 22 日宣布取得了GPT-3 的独家授权。
所以,现在大家都说,微软赢麻了,谷歌慌得了,就是因为ChatGPT 微软的“势力范围”。
毕竟,如果所有人都找ChatGPT 问问题,而不在搜索引擎上搜索,谷歌的广告业务不就芭比Q了吗?
但,迟早人们可以用自然语言跟机器对话得到问题的答案。搜索引擎作为信息入口的功能,肯定会被既能直接提供答案,又能作为信息入口的GPT等新方式所取代。
生成式AI ,就是帮你做东西的AI。判别式AI ,就是机器能够帮助辨别东西的AI,也叫决策式AI 。
比如,ChatGPT,在你提问之后说话给你巴拉巴拉一大堆,这就是生成式AI。你让一个作图AI,按照你提的要求做个画,这也是生成式AI。
生成式AI 为啥火,因为它能够直接响应人,直接跟人交流,这是人们最期待的AI 方式。就跟《星际穿越》里面的TARS 机器人一样。
判别式AI ,也挺重要的,典型的就是让机器具有像人一样的认识能力。比如,人工视觉、听音识曲、自动感知后自动判别然后再自动决策等。我们数字营销行业的营销自动化(MA ),就很可以利用上判别式AI 。比如,自主判别某个用户是否属于高机会型潜在客户,然后自动为他提供相应的商业信息或营销诱饵。
生成式AI 和判别式AI 没有孰优孰劣之分,它们是机器智能的两个必备能力。就如同人,既要有判断力,也要有创造力。既能有决定做不做一件事情的能力,也要有能够把事情做出来的能力。两种AI 就是对应的人的这两种能力。
语言的材料。这个词并不是在ChatGPT 等自然语言AI产生之后才产生的。例如,我们学习一门外语,也需要语料。毕竟,没有人天生就懂一门自己从来没有见过的语言。
我时常在想,当中国人第一次接触英语的时候,是谁这么聪明,能第一个学会英语呢?肯定是一个“中外混血儿”,他的妈妈是老外,爸爸是中国人吧!
但事实上,并不需要这样,据说最早学会外语的中国人是学者,或者应该说,最早学会中文的外国人是学者(南怀仁、汤若望这些),然后他们又教会中国人学会外语。他们怎么学会的?就是基于生活在中国(或者外国),而拥有了丰富的语料资源。
语料的英语是Corpus,字典上的解释是:一套书面文本,特别是某一特定作者的全部作品或某一特定主题的写作。
在ChatGPT 等模型中,语料被分解为Token 和各种向量关系,通过预训练的方式,人们基于这些Token 和向量关系,建立起各种参数和模型,成为可被机器“消化、吸收”的原始学习素材。
所以,语料是ChatGPT的原材料,没有语料,就没有ChatGPT。
我这篇文章,未来就有很大可能成为某些自然语言人工智能模型的语料。
Token 是语言模型用于处理和生成文本的文本单位。我们通常认为,一个单词就是一个Token,但实际上并不如此,比如OpenAI 算两个token,分别是open和ai,再比如ChatGPT是chat 、g、p 和t 这四个token。
Token对ChatGPT至关重要,是ChatGPT理解和生成语言的最基本元素。
在用户输入一段话后,它使用一个分词算法将每个输入的单词拆分成token 。例如,“Hello world!”将被拆分为3个 token :[“Hello”,“world”,“!”]。“I’m hAppy