智东西
编译 | 徐珊
编辑 | 云鹏
大模型之战席卷了整个2023年,紧接着的是,各大科技巨头似乎都瞄准了AI可穿戴设备,尤其是智能眼镜!
智东西12月18日消息,据The Information报道,Meta、谷歌、微软、OpenAI等科技巨头都准备将AI大模型应用在智能眼镜等带有摄像头的可穿戴设备上。他们认为智能眼镜等硬件将成为AI大模型的合适载体,因为多模态AI大模型可以处理声音、图片、视频等多类型的信息。
近期,各大科技巨头都在尝试将AI功能融入到不同移动设备中。有知情人士透露,OpenAI最近正在将“GPT-4 with Vision”的物体识别软件嵌入到社交公司Snap的产品中。这或许将为Snap的智能眼镜Spectacles提供新功能。
Meta也在上周二展示了自己将AI功能融入至雷朋(Ray-Ban)智能眼镜的效果。该智能眼镜可以通过AI语音助手描述用户看到哪些东西,同时能够告诉用户哪件衬衫适合哪件裤子,以及拥有西班牙语报纸翻译成英语等一系列新功能。
亚马逊Alexa AI助理团队内同样有个小组在研发一种新型带有设觉功能的AI设备。此外,和多数手机厂商一样,谷歌开始尝试将AI功能应用到手机中。
今年6月,苹果Vision Pro头显正式亮相,计划在明年出售。但据The Information推测,该设备可能刚开始并不会具备多模态AI功能。
当一场新的移动终端变革开始,苹果、微软、OpenAI、Meta等科技巨头将会如何布局新的战场?他们又是如何在各大硬件中凸显出自己的AI优势?哪些新的AI硬件或成为AI大模型的最佳载体?我们通过最新爆料可以看到一场AI硬件创新战正在开始。
一、谷歌:已适配手机AI助手Pixie,借助软件为智能眼镜提供搜索服务
在上周刚刚发布的AI大模型Gemini中,展示了一段AI是如何根据模仿者的动作,猜出电影名称的视频。它还展示了如何猜地图、如何处理手工问题等细节。
尽管视频内容可能有所编辑,但是该视频也透出了谷歌想要传达的基本思想:打造一款始终在线的AI,它可以通过人们在看、在听的东西,给用户直接的反馈或者帮助。一位直接了解谷歌消费硬件战略的人士表示,谷歌可能还需要数年时间才能提供这种体验,因为这种实施基于环境的计算将会耗费大量电力。
▲谷歌眼镜
现如今,谷歌正在重新设计其Pixel手机的操作系统,希望嵌入较小规模的Gemini模型,为其手机AI助手Pixie升级体验,比如说告诉用户周边哪里可以买到他们刚刚拍摄下来的产品。
基于谷歌在搜索技术上长期布局,The Information觉得基于周围环境信息,学习和预测人们需要或想要的AI设备似乎非常适合谷歌。尽管十年前,谷歌眼镜失败了,但是谷歌后续也推动Android/ target=_blank class=infotextkey>安卓手机厂商们通过手机摄像头扫描环境并将图像推送到谷歌,然后基于云系统进行分析,从而形成“google Lens”的图像搜索应用程序。
了解该战略的人士表示,该公司最近取消了眼镜式设备的开发,但仍在为该类型的设备开发软件。这些人士表示,谷歌计划将图像搜索软件授权给硬件制造商,类似于为三星等手机制造商开发安卓移动操作系统的方式,发挥其AI大模型的作用。
二、微软:在HoloLens上运行AI软件,通过聊天机器人提供多模态语言
在多模态AI大模型的热潮下,微软研究人员和产品团队也开始尝试升级自己的语音助手,并且尝试在一些小型设备上运行AI功能。
根据专利申请显示以及知情人士透露,其模型可以为一些平价的智能眼镜或者其他硬件提供支持。微软正计划在其AR头显HoloLens上运行AI软件。用户将头显前置摄像头对准物体,拍下照片发送给由OpenAI 驱动的聊天机器人,让聊天机器人直接识别物体。同时,用户还可以通过对话的方式,从聊天机器人这里获得更多的信息。
▲HoloLens
三、苹果:Vision Pro发布时或不会搭载AI大模型
苹果Vision Pro拥有不少多模态的新功能,但AI大模型方面的进展,和其他几家相比略有落后。目前,没有任何迹象表明Vision Pro在发布时将拥有复杂的物体识别或其他多模态AI功能。
但苹果花了数年时间完善Vision Pro的计算机视觉功能,以便该设备能够快速识别周围环境。这包括快速识别家具并了解佩戴者是坐在客厅、厨房还是卧室。或许,苹果正在开发可以识别图像和视频的多模态大模型。
▲Vision Pro
但和其他公司正在开发的眼镜相比,Vision Pro又大又重,且不适合在户外日常场景中使用。
另一方面,据报道,苹果公司今年早些时候暂停了自己的AR眼镜的开发工作,以专注于其头显的销售。目前尚不清楚AR眼镜的研发工作何时会恢复。
四、Meta:已适配雷朋眼镜,提供AI新功能
Meta首席技术官Andrew Bosworth周二在Instagram发帖说,部分雷朋(Ray-Ban)眼镜用户将能够直接在智能眼镜端访问AI大模型。
▲Ray-Ban
Meta的一些领导者将雷朋眼镜视为AR眼镜的“先驱”。该设备可以将数字图像与周围现实世界融合在一起。按照原计划,Meta计划在未来几年推出AR眼镜,但该计划遇到了一系列困难。具体而言,有报道成,智能眼镜很难吸引用户,并且新一代显示器开发遇到了难题。
但多模态AI大模型的到来似乎让Bosworth以及其团队重新焕发了新活力,让他们了解这款眼镜在短期内可以为客户带来一系列AI新功能。
五、亚马逊:开发新AI设备系列,或为智能眼镜提供支持
今年夏天,在亚马逊每年两次的产品规划中,Alexa团队的工程师提出推出一款能够运行多模态AI的新设备。
据直接了解相关项目的人士透露,该团队特别关注的是如何减少在设备上处理图像、视频和语音等AI计算和内存的需求。目前尚不清楚该项目是否获得了资金支持,也不清楚该设备打算为客户解决什么问题,但它与该公司的Echo语音助理设备系列是分开的。
此前,Alexa团队也曾研发过一款名为Echo Frames的智能音频眼镜。该设备不支持屏幕显示器或摄像头。目前尚不清楚亚马逊是否会开发具有视觉识别功能的智能眼镜。
六、AI可穿戴设备+摄像头,或成大模型最佳硬件载体
这不是硅谷巨头们第一次设计这类带有摄像头的可穿戴设备产品。此前谷歌、微软以及其他科技巨头都曾研发过AR头显。他们当初希望能够让数字屏幕出现在头显的半透明屏幕上,逐步提供指引帮助用户完成任务。但由于光学设计较复杂,最后多数产品反响不佳。
OpenAI推出的多模态大语言模型,可以通过视觉识别功能,让AI知道人们在看什么,在做什么,并且可以对这些行为、事物提供进一步信息。当大语言模型开始轻量化,一些小型设备也可以搭载模型,能够即时反馈用户的请求。考虑到人们对隐私安全的重视,人们可能还需要一段时间才能接受智能眼镜,以及一些内置摄像头的AI设备。
The Information觉得智能眼镜拥有AI助手后,或许将会成为像智能手机一样变革性的产品。它不但能成为指导学生数学问题或者论文问题的导师,还可以随时给周边的人提供环境信息,如翻译广告牌、告诉用户如何解决汽车故障等。
苹果公司前工程经理,AI搜索公司Objective的首席执行官巴勃罗·门德斯(Pablo Mendes)说:“AI大模型对一切都至关重要,它们将在计算机、手机和其他设备的底层架构中起到作用”。
结语:科技巨头寻求AI大模型最佳硬件载体
在由ChatGPT掀起的第三轮人工智能热潮中,多模态大模型属于底层基础设施,ChatGPT属于直接应用,这些都是已经明晰的答案。但ChatGPT在哪些设备上才能最大发挥出其应用潜力,哪些设备又是大语言模型的最佳载体?这些成为OpenAI、微软、谷歌等科技巨头们如今开始摸索的方向。
从The Information最新爆料看来,带有摄像头的智能眼镜成为不少巨头探索的重要方向,同时也有部分企业开始摸索研发新的可穿戴AI设备。又或者,尝试在手机上适配各类AI大模型。
其实不仅是科技巨头们如此思考。在国内,不少AR眼镜厂商们同样也认为这是机遇所在。“机器人和AR眼镜或许将成为这波AI大模型的最大受益者。”一位关注AI产业十余年的产业人士说道。
但在同一设计思路下,最后谁能调教出最好的轻量化AI大模型?谁又能打造出最实用的智能眼镜?我们将持续观察各大科技巨头的进展,找到答案。
来源:The Information