您当前的位置:首页 > 电脑百科 > 人工智能

这可能是关于昆仑万维天工模型,最详尽的一次评测了

时间:2023-05-04 11:12:13  来源:企鹅号  作者:阿尔法工场

昆仑万维天工大模型自4月17日宣布启动邀测,官方宣布:天工是由昆仑万维(SZ:300418)和奇点智源合作自研、中国第一个真正实现智能涌现的国产大语言模型。

“大”模型有一个重要的特性“涌现”。所谓涌现现象就是在越过了某个参数量和头尾数据量后,其能力曲线就会陡然提升,包括但不限于知识库的扩大和推理能力的提升。

昆仑万维表示天工用到了两个千亿模型 —— 千亿预训练基座模型和千亿 RLHF(Reinforcement Learning from Human Feedback)模型。

而其中的 RLHF 就是“涌现”能力的最重要由来。千亿级别的 RLHF 或许是未来模型进步的最重要模块。

LLM(大语言模型)的新范式:RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习方式依据人类反馈优化语言模型。

RLHF 需要收集大量高质量的人类偏好数据,包括人工生成的文本和对模型输出的排名标签。除此之外,RLHF 还需要处理标注者的偏见和不一致以及模型输出的有害或不真实的风险。

总体来说,相较于传统算法,RLHF 需要更多的人工标注和数据清洗以向模型提供充足的带标注的文本数据(又或者是图片数据以训练多模态模型)。

本次天工还有一个重要宣传点为:超过20轮的对话能力和1万字以上的长篇文本记忆能力。这也是当前大部分国产模型最为欠缺的。

之前测试文心一言和 ChatGLM 的时候也表现出了明显的记忆丢失现象。而长记忆能力也是大语言模型的“涌现”现象的一个表征。本文也将着重于测试这项能力。

模型能力测试

本次测试我们主要将天工与 ChatGPT3.5做对比。在部分较难问题(ChatGPT3.5 和天工均无法完成),会引入当前公认最强大语言模型 ChatGPT4 作为参考模型。

对大语言模型能力的测试,常常使用三个模块来评价,分别为语言生成能力,逻辑推理能力,代码分析能力以及长对话连续生成能力。

一、语言生成能力

1.问题:“猜谜语:埋在奴家心底,打一字”。

本题中,仅有天工正确回答了这个字谜,而 AI target=_blank class=infotextkey>OpenAI 旗下的两款 AI 模型都未正确答复。

ChatGPT4 则是看似正确地给出了一个不正确的答案。而这正说明本土的语言模型的优势,即针对本国语言的专业调优能力以更符合本地人的使用习惯。

2.“这首诗是什么意思:女娲炼石补天处,石破天惊逗秋雨。梦入神山教神妪,老鱼跳波瘦蛟舞。吴质不眠倚桂树,露脚斜飞湿寒兔。”

上图天工 中图 ChatGPT3.5 下图 ChatGPT4

事实上这一段句子是出自于李贺的《李凭箜篌引》。虽然天工和ChatGPT3.5均根据这首诗本身给出了解读,但是很显然由于知识库的欠缺,都无法基于诗词本身的背景解读,只能从文字本身推断诗词含义,自然水平有限。

3.“请帮我列举一个一份赛博朋克世界观的科幻小说的故事大纲和主要人物设定”。

上图天工 中图 ChatGPT3.5 下图 ChatGPT4

从本题结果来看,生成效果 ChatGPT4>天工>ChatGPT3.5 。天工在面对中文类题目时表达能力不错,可以较好地理解中文问题并给出相关答案。

ChatGPT3.5在理解问题和给出答案方面表现也不错,但相较于 ChatGPT4 和天工,生成结果的流畅度和准确性稍有欠缺。ChatGPT4表现最好,能够更加准确地理解问题和生成相关内容,输出结果的流畅度和准确性也更高。

4.“从这封电子邮件中提取收货人姓名和地址:亲爱的凯利,很高兴在研讨会上与您交谈。我觉得简的演讲很好,谢谢你要送我的书,这是我的地址 2111 Ash Lane, Crestview CA 92002。Best, Maya”。

上图天工 中图 ChatGPT3.5 下图 ChatGPT4

从本题结果来看,天工的表现好于 ChatGPT3.5 和 ChatGPT4。天工能够准确地识别并提取出邮件中的收货人姓名而ChatGPT3.5 则识别错误。

二、逻辑推理能力

1.“树上有9只鸟,猎人开枪打死1只,树上还剩几只鸟?”

上图天工 中图 ChatGPT3.5 下图 ChatGPT4

ChatGPT4 能够准确理解问题并给出正确的答案,即树上没有鸟。ChatGPT4 理解了这是一个脑经急转弯或者需要联合实际的题目,而另外两款模型则没有这种推理能力。

2.“假设False 与 True 是 False. 则True 与 not False 是?”

上图天工 中图 ChatGPT3.5 下图 ChatGPT4

ChatGPT3.5 和 ChatGPT4 能够理解问题并给出正确的答案,即 True 与 not False 都是 True。而天工则出现了错误的答案,这可能是因为它没有很好地理解问题中的逻辑关系,导致输出结果与实际不符。

3.“爸爸妈妈结婚为什么没有邀请我?”

上图天工 中图 ChatGPT3.5 下图 ChatGPT4

ChatGPT4 能够更好地理解问题并给出比较合理的答案,而天工也能理解到这其实是一个玩笑。ChatGPT3.5 则一本正经的胡说。

4.“确定给定句子是否表明两个事件之间存在因果关系、相关关系或中性关系。如果句子表示因果关系,则回答因果关系;如果句子表示相关关系,则回答相关;如果句子表示两个事件之间既没有因果关系也没有相关关系,则回答中性。句子为:“如果你去过博物馆,你就去过大英博物馆。”

上图天工 中图 ChatGPT3.5 下图 ChatGPT4

对于语言逻辑的推理,三者均能正确表达。

三、代码分析能力

1.“使用C语言解决:输入一行字符,分别统计出其中英文字母、空格、数字和其他字符的个数。提示:灵活使用getchar() 函数来按顺序读入所输入字符串里面的各个字符。”

上图天工 中图 ChatGPT3.5 下图 ChatGPT4

在给予了提示后二者均能正确完成这种基础题目。

2.下面是一道经典的力扣链表题:

上图天工 下图 ChatGPT3.5

这是一道基础的链表类题目,而天工已经无法正确解决。在代码数据集上,坐拥 Github 的微软联合 OpenAI 的实力异常强大。

3.给定一个未排序的整数数组 nums ,找出数字连续的最长序列(不要求序列元素在原数组中连续)的长度。请你设计并实现时间复杂度为 O(n) 的算法解决此问题。

上图天工 下图 ChatGPT3.5

与上一题相同,本题天工依旧回答错误而 ChatGPT3.5 回答正确。

四、长对话能力

天工本次的宣传重点就在于20+轮长对话能力和超过1万字的记忆能力。而这也一直是除了 OpenAI 外的大模型的普遍痛点,即记忆能力不强。因此此次测试特此加入多轮对话的实测。

我们首先让他给出一个废土风格的科幻小说框架

接着让他给出主人公的设定:

由于这个框架中没有女性角色,我们让他在原有的故事框架中添加女性角色:

全篇超过了1800字,而天工并没有丢失记忆。在目前的国产大模型中是效果最好的一档。天工也印证了其宣传的多轮对话能力。

总结

从上述评测结果来看,天工作为国产大语言模型,在中文语境和特定场景下表现出色,能够理解和回答相关问题。

在语言生成能力方面,天工和ChatGPT3.5都表现得相对不错,尤其是在中文问题上,天工的表现优于ChatGPT3.5。然而,在逻辑推理、代码分析和长对话能力方面,天工与ChatGPT3.5和ChatGPT4相比仍有明显差距。

在逻辑推断上,天工确实表现出了其宣称的“涌现”现象,获得了一定的逻辑推理能力。这是模型增大和引入 RLHF 的典型表现。其在算法积累和模型参数量扩大上有一定的成效。

但是天工的代码能力确实显著弱于ChatGPT3.5的能力。ChatGPT3.5可以出色的完成大部分的 leetcode 算法题并且可以一次通过。

而天工生成的代码一般都无法直接通过。这可能主要得益于微软旗下的 GitHub 的庞大积累以及其提供的巨量代码样例。

在天工自己宣传的多轮对话和涌现现象来看,可以看到天工确实具备了一定的多轮对话能力。

对于上下文的记忆能力当前处于国内领先水平。大语言模型的涌现现象,是指当一个语言模型的规模(参数量、训练数据量、计算量等)达到一定的阈值时,它会表现出一些小规模模型所不具备的能力。

例如在没有额外训练或梯度更新的情况下,通过少量的示例或提示来完成各种下游任务。这种能力是难以预测和解释的,因为它不符合简单的伸缩法则,而是在某个临界点发生了质变。

在目前来看,天工可能确实产生了涌现现象,极大提升了模型的能力并降低了模型对于定向数据的依赖。同时长期记忆能力也赋予了模型更多的可能性。

总体来说,天工作为国内大语言模型的代表,表现出了一定的竞争力。在未来,天工在不断优化和改进的过程中,有望在特定场景和应用领域取得更好的成绩。

然而,要在全球范围内与顶级模型展开竞争,天工仍需在各个方面加强提升。



Tags:天工模型   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
这可能是关于昆仑万维天工模型,最详尽的一次评测了
昆仑万维天工大模型自4月17日宣布启动邀测,官方宣布:天工是由昆仑万维(SZ:300418)和奇点智源合作自研、中国第一个真正实现智能涌现的国产大语言模型。“大”模型有一个重要的...【详细内容】
2023-05-04  Search: 天工模型  点击:(348)  评论:(0)  加入收藏
▌简易百科推荐
行业大模型快速落地的一年,如何做?
生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看,无论是“文生文”的大语言模型,还是“文生图”的多模态模型,更多的是辅助人们进行一些简单的办公,或者提供一...【详细内容】
2024-04-10    钛媒体APP  Tags:行业大模型   点击:(3)  评论:(0)  加入收藏
互联网充斥“针对小白的AI课”,能相信吗?普通人不学AI课程会被淘汰?
早前,一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主,向用户大力推介“所有人都需要学”的AI入门课程。不过,这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】
2024-04-10    九派新闻  Tags:AI课   点击:(7)  评论:(0)  加入收藏
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(3)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(3)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(4)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(6)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(3)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(5)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(6)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
相关文章
    无相关信息
站内最新
站内热门
站内头条