您当前的位置:首页 > 电脑百科 > 人工智能

一文解析「小米大模型」

时间:2023-08-25 13:42:59  来源:小米公司  作者:

站在科技变革的交汇点,以智能为核心的技术正掀起新一轮的科技浪潮。浪潮之下,大模型技术让AI发展看到了新的光芒,小米便是浪潮中的逐光者。

8月14日晚,雷军在年度演讲中宣布小米科技战略升级:深耕底层技术、长期持续投入,软硬深度融合,AI全面赋能,总结为公式(软件×硬件)ᴬᴵ。作为首家把AI放在次方地位的科技公司,小米将包括大模型在内的AI技术看作一种生产力,将AI真正镶嵌在业务与产品中,为生产、生活赋能。

本次演讲中,小米自研大模型正式亮相,雷军宣布小米大模型技术的主力突破方向为“轻量化、本地部署”,让用户在享受安心的数据保护的同时,拥有大模型带来的先进生产力。值得一提的是,小米自研大模型在近日的权威中文评测榜单C-EVAL和CMMLU中,取得同参数量级第一的好成绩;小米自研手机端侧大模型初步跑通,部分场景效果媲美云端。

那什么是大模型?小米为什么要做大模型?小米大模型有哪些独特闪光点?今天,我们来告诉你答案。

01

解码大模型

ChatGPT出现以来,大模型优异的理解能力和生成能力令人惊艳,关于其用途的探索也越来越多。目前看来,很多传统的自然语言处理任务都可以用它来完成,比如搜索、翻译、问答、摘要、信息抽取和分类以及写作等。在日常生活中,所有基于对话的服务,如客服、教育、咨询、导游等,以ChatGPT为代表的大模型都有一定的用武之地。

大模型指参数数量巨大、层次结构复杂的机器学习模型。这些模型通常具有十亿到千亿甚至万亿个参数,通过大量的数据进行训练,提供更高的理解和生成能力。

在小米看来,大模型不仅是指模型参数多、尺寸大,更重要的是代表了一种新的训练范式。我们将其总结为:大数据、大任务、大参数

大数据:指需要用海量的数据去训练,让模型从中自动挖掘出所需的信息。通常采用自监督或者无监督学习方式,无需人工标注就可以提炼规律、学习知识,从而提升模型的眼界。

大任务:指学习的目标足够复杂、覆盖面广。这样才能“强迫”模型按照模块化、高类聚、低耦合的方式组织知识点,实现举一反三的泛化能力。

大参数:指模型的知识容量。大模型的参数规模越大,模型的表达能力和学习能力也就越强。

在这个范式中,我们认为大数据和大任务是不可或缺的。如果没有大数据,模型不可能学到丰富的常识;如果没有大任务,知识点和技能点不可能在模型中有机高效地组织起来。

02

布局人工智能

全力突破大模型

以AI为基石,沉淀技术积累

小米基于对产业和时代的思考与理解,选择对人类文明有长期价值的战略方向,并坚持长期持续的投入。我们已经布局了12个技术领域,99个细分赛道,未来五年(2022-2026)我们至少会投1000亿以上的研发经费。由此构建核心竞争力、牢筑护城河,对人类社会未来的进步发展注入澎湃力量。

AI是未来的生产力,也是小米长期持续投入的底层赛道。小米很早就对人工智能进行布局,2016年小米AI实验室成立,并组建了第一支视觉AI团队,今年4月成立专职大模型团队,历经7年6次扩展,小米人工智能团队已经有3000多人,逐步建立了视觉、语音、声学、知识图谱、NLP、机器学习、多模态等AI技术能力。

成为浪潮之上的角逐者,必须有对技术的沉淀和积累。作为小米AI技术的“试验田”和“弹药库”,小米AI实验室会研发中长期的前沿技术,围绕小米业务做储备,在集团需要的时候输出“弹药”。小米对AI的深刻认识与掌握的技术能力,也有效地赋能了手机、机器人等各个业务板块。

大模型是未来科技的发展趋势,更是下一个人工智能的高地。2021年开始,小米就对大模型的方向特别关注,并开展了对话大模型的预研工作。在闲聊对话场景下,依托于月活超过1.15亿的智能语音助理小爱同学,小米研发了参数规模为28亿的对话模型,达到了当时同等参数规模下业界的最佳效果。这为小米积累了多卡分布式训练的经验,为后续开展大规模语言模型训练奠定了基础。

小米大模型:轻量化、本地部署

通用大模型需要海量数据,和巨大的算力,使用成本也很高。面对这种情况,小米如何突围?

小米的机会在设备端。截至2023年一季度,小米AIoT平台已连接设备(不包括智能手机、平板及笔记本电脑)达6.18亿台,是全球规模领先的消费级物联网平台。设备多样,使用场景也各不相同,一个大模型难以兼顾。而我们判断在大多数场景和垂域,可能并不需要那么大的模型。在一个较小的基座模型上,使用业务数据进行深入定制,就应该能达到用户的需求。更进一步,如果把一部分大模型能力下放到端侧,不仅能更好地保护用户隐私、而且有机会在本地实现千人千面的个性化定制。

不盲目追求模型参数规模,而是综合考虑效果、效率与使用成本的均衡,软硬结合,生态连结,这是大模型技术与小米生态结合的最优方案,也是小米为用户提供独特体验的根本保证。因此,“轻量化、本地部署”是小米大模型技术的主力突破方向。

目前,我们自研的13亿参数的端侧模型已经在手机端跑通,部分场景效果媲美60亿模型在云端的运算结果。与早些时候市场上放出的手机端大模型的方案相比,小米会调整模型结构和参数大小,适配各种芯片在内存和算力上的特点,达到功耗、推理速度和生成效果的最佳平衡。

03

布局人工智能

全力突破大模型

自有数据更懂小米

数据上,我们自己挖掘整理的训练数据占比达到了80%,其中小米自有的产品和业务数据量达到3TB。因此我们的大模型最懂小米的产品,最懂小米的业务。

效率和效果的最佳平衡结构上,我们根据对Transformer结构的理解,融合了自身的实践经验进行改良;并且充分考虑设备端芯片的特色要求,合理设置模型的宽度和深度,以达到效率和效果的最佳均衡。

更多策略更少浪费

训练策略上,采用小米提出的ScaledAdam优化器和Eden学习率调度器,显著提升收敛速度的同时减少了优化器中显存的浪费。由于模型的知识容量有限,需要更精巧地安排训练数据的顺序,使得模型尽可能多地掌握知识点和技能,减少参数的浪费,以此实现“轻量化”。

为用户隐私安全保驾护航模型部署到端侧后,信息不用上传到云端,所有计算都在本地进行,可以从根本上保证用户隐私不被泄露。即使在端云结合的服务框架下,隐私信息会存储在端侧,涉及它们的计算也尽可能在端侧完成。即使偶尔需要使用云端的能力,信息也会经过处理和加密。

04

仰望技术星空

脚踏体验实地

截至2023年8月10日,小米自研的大规模预训练语言模型MiLM-6B,参数规模为64亿,在权威中文评测榜单C-EVAL和CMMLU中位列同等参数规模大模型第一

在C-Eval评估中,MiLM-6B 的平均分为60.2,总榜单排名第10、同参数量级排名第1

“C-Eval”是由上海交通大学、清华大学、爱丁堡大学共同构建的一个针对基础模型的综合中文评估套件。它由 13948 道多项选择题组成,涵盖 52 个不同学科和四个难度级别,覆盖人文、社科、理工,及其他专业四个大方向,用以帮助中文社区研发大模型。

在CMMLU评估中,MiLM-6B在Five-shot和Zero-shot 测试中的平均分分别为57.17和60.37,均位列中文向模型第1

“CMMLU”是一个综合性的中文大模型评估基准,涵盖了从基础学科到高级专业水平的67个主题,涉及自然科学、社会科学、人文、以及常识等,专门用于评估语言模型在中文语境下的知识和推理能力。

通过打榜,验证了我们对特定垂域进行定向增强的技术能够达到怎样的效果,这也是用轻量化模型进行业务定制的必备能力。虽然小米大模型取得了优异的成绩,但我们不会把榜单排名与用户体验画上等号。好成绩的背后,更重要的还是打磨技术、沉淀方法论,将它们运用到产品,提升用户体验才是我们的终极目标。

科技应着眼于解决问题,以需求与应用为落点。小米大模型采用“轻量化、本地部署”的方案,能够更好地解决多场景、个性化的用户需求。一方面,大模型本地运行无需担心“弱网、无网”情况,且响应速度快,使用稳定;另一方面,在提供更加个性化服务的同时,也能够更好地保护用户隐私,让技术真正改善用户体验,让成绩真正落地有效。

未来,小米将扩大模型规模,不断探索端云结合、多模态融合的大模型解决方案,与小爱同学、手机操作系统MIUI、IoT、机器人、汽车等业务结合,提升小爱同学的理解能力与智能家居指令的识别能力等,给予用户更加个性化的智能体验,让全球每个人都能享受大模型带来的美好生活。



Tags:大模型   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
AI是万灵药?Meta要把大模型塞进AR眼镜里
寻找下一块“屏幕”,这无疑是最近几年科技行业的一个热门赛道。随着个人计算机点燃了互联网,智能手机让移动互联网无处不在之后,这前后两次造富神话的出现,也让所有人都在期待下...【详细内容】
2024-04-09  Search: 大模型  点击:(2)  评论:(0)  加入收藏
AI程序员上岗 垂类大模型应用迎来井喷期
能自动写代码的“AI员工”、逐渐告别不够好用的智能客服,无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业,IT、工业生产、金融、服务...【详细内容】
2024-04-07  Search: 大模型  点击:(3)  评论:(0)  加入收藏
AI干掉声优?音频大模型追逐“图灵时刻”
七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不...【详细内容】
2024-04-03  Search: 大模型  点击:(5)  评论:(0)  加入收藏
大模型Kimi火了,长文本“卷”出新高度
近日,AI智能助手Kimi宣布支持200万字无损上下文,在长上下文窗口技术上再次取得突破,引燃人工智能领域新一轮投资热情。  摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo,支持1...【详细内容】
2024-03-29  Search: 大模型  点击:(13)  评论:(0)  加入收藏
大模型应用的 10 种架构模式
作者 | 曹洪伟在塑造新领域的过程中,我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说,已经司空见惯,设计模式已成为程序员们的重...【详细内容】
2024-03-27  Search: 大模型  点击:(13)  评论:(0)  加入收藏
超长文本是AI大模型的能力突破口吗?
◎记者 刘怡鹤近日,能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为,国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】
2024-03-26  Search: 大模型  点击:(8)  评论:(0)  加入收藏
百度AI“咬”了一口苹果 大模型商用有戏了?
百度3月25日突传利好。据知情人士透露,百度将为苹果今年发布的iPhone16、Mac系统和ios18提供AI功能。消息人士称,苹果曾与阿里以及另外一家国产大模型公司进行过洽谈,最后确定...【详细内容】
2024-03-26  Search: 大模型  点击:(18)  评论:(0)  加入收藏
Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
从ChapGPT到Sora,从数千亿参数到千万长文本,大模型浪潮下,永远不缺热点。近日,“Kimi概念股暴涨”“Kimi为宕机道歉”等词条先后冲上微博热搜,让月之暗面这家刚成立一年的人工智...【详细内容】
2024-03-25  Search: 大模型  点击:(15)  评论:(0)  加入收藏
Kimi爆了 国产大模型应用元年还远吗?
国产大模型应用Kimi近日可谓横空出世。根据Similarweb数据,Kimi智能助手的周度访问量由23年12月初的15万提升至近期(3.10-3.16)的超过200万,APP端下载量也快速提升,从2月初的效率...【详细内容】
2024-03-22  Search: 大模型  点击:(14)  评论:(0)  加入收藏
国产大模型开卷“比谁长”?Kimi爆火点燃长文本竞争赛道
来源:财联社近日,又一现象级AI应用Kimi爆火出圈,在用户端和资本市场都掀起波澜,引发多个Kimi相关概念股异常波动。海天瑞声(688787.SH)、中广天择(603721.SH)等上市公司纷纷回应“无...【详细内容】
2024-03-22  Search: 大模型  点击:(5)  评论:(0)  加入收藏
▌简易百科推荐
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(1)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(1)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(1)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(2)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(2)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(5)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条