图片来源@视觉中国
文 | 追问
人类个体意识被包裹在大脑这团粉色迷人的肉球中,再经过头盖骨的厚厚包覆,形成一种坚硬的物理隔断,致使人与人之间无法直接进行意识交流。这种困境似乎在某种程度上催生了群体内的语言需求。于是,我们的人类祖先在咿咿呀呀之间与同伴交换了一部分的信息。但遗憾的是,语言有时并不能完整地反映人的全部所思所想,也由此催生了人类社会的复杂性。这也激发起了人类对准确知晓同类真实意图的兴趣,即读心。
刘慈欣在小说《三体》中曾构想出如此迷思:三体人可以通过电磁波,将真实的想法准确的传递给同类,是实实在在的透明思维。虽然这略显耿直,但历史上,人类对于能够“读心”的热情向来不减。从1920年代,首次记录到人类脑电图信号,到近些年来脑机接口技术的突飞猛进——首次破译了与手写笔迹有关的大脑信号,帮助瘫痪患者用意念写字;再到最近由ChatGPT或Stable Diffusion所触发的生成式AI时代的到来,更使得人类神经信号解码步入一个蓬勃发展,尤为鼓舞人心的新阶段。那么,人工智能是否真的有可能解读人类的思维?目前关于神经解码领域又有哪些最新的进展?
北京时间2023年5月31日,天桥脑科学研究院(Tianqiao and Chrissy Chen Institute,TCCI)举办了“AI问脑”第二期会议,主题是“生成式AI时代,‘读心术’会成为现实吗?”。该会议由北京邮电大学人工智能学院副教授陈光博士主持,他同时也是AI领域的知名博主@爱可可-爱生活,来自中科院自动化所模式识别国家重点实验室副研究员王少楠博士以及比利时天主教鲁汶大学(KU LEUVEN)博士后孙静远博士则分享了他们对生成式AI的神经解码的话题的精彩见解。本文通过追问形式呈现会议的上半部分精彩内容,希望能够给读者带来一些启发性的思考。
@陈光: 在脑科学领域,如何理解“读心术”?
@孙静远
我更倾向于把“读心术”称为神经解码(neural decoding)或脑机接口(brain machine interface),即通过一些技术手段,如功能性核磁共振(fMRI),脑磁图(MEG)和脑电图(EEG),来记录人类被试在看到某些刺激时的反应。人在接触到外界的刺激时,比如看一幅图画或一段视频,为了理解这些信息,大脑内部会产生对应的神经信号活动。而这些神经信号可以被功能核磁共振、脑磁图和脑电图记录下来,接着我们可以通过一些技术手段,比如建立数学模型,在信号和刺激之间构建对应的映射关系。然后通过这些映射关系,我们就可以明确,产生对应脑信号的到底是怎样的刺激。
总结而言,“读心术”或神经解码的逻辑流程是我们以比较高的信噪比*的方式去采集人的大脑活动为开始的,然后有了这些神经信号记录之后,我们再应用一些机器学习的算法,去建立模型来解析这些信号是哪些外界刺激所产生的波动。
@王少楠
“读心术”(mind reading)严格来说,应该是读脑术。即我们建立某一种技术,把人的思维转换成可以直接被人类识别的文本或者图像的形式。
*信噪比(Signal-to-noise ratio,缩写为SNR或S/N)是科学和工程中所用的一种度量,用于比较所需信号的强度与背景噪声的强度。在通信领域,这个比率通常是以对数形式表达,单位是分贝(dB)。SNR的值越高,表示信号越清晰,即背景噪声越小。——来自GPT-3.5的注解
@陈光: 上述提到神经解码基本的逻辑流程是神经信号采集,对采集的数据进行分析,以及将信号映射并连接到所诱发它的刺激上去。那么,生成式AI在神经解码过程中应重点解决哪个环节的问题?
@孙静远
人脑接收到特定刺激,进而产生对应的反应过程,这是一个非常复杂的非线性过程。另一方面,即使健康被试大脑的解剖结构有很大程度的共性,由于我们受到的教育不同,成长环境不同,这就导致不同的人类被试在看到同样的刺激的时候,所测量的大脑活动可能是非常不同的。被试个体间的差异以及人类将刺激转换成对应的神经信号过程的复杂性,导致我们想要建立信号和刺激之间的映射是极具挑战性的。在领域发展的早期,研究人员只能使用一些比较简单的数学回归模型来建立信号和刺激之间的关系。但是随着近些年,人工神经网络和机器学习的兴起,我们拥有了更好更先进的计算工具。我们能够建模比简单的线性回归要复杂很多的非线性的关系。总结而言,生成式AI填补了简单线性模型所无法涵盖的那些复杂关系。
另外,生成模型也能够进一步地把刺激直接生成为人类感官更容易理解的东西。它不再是简单的两个数值之间并不直观的映射关系,而是说我们可以通过一些预先训练好的模型把我们感知到的刺激还原度较高地重建回来。
@王少楠
神经解码领域目前主要有两个瓶颈,其一是神经影像信号噪声太大,随着神经降采集*机器性能的提升,这方面有望逐渐被解决;而生成式模型则主要是解决了另一个问题,在噪声这么大的情况下,相较于先前神经解码的技术只能对文本或图像的信号进行简单的二分类,现在生成式的模型则可以从信号中简单的获取稍微有信息量的东西,去大概的猜测出真实的刺激。
*神经降采样:是指将高频信号的采样率降低的过程,也就是将高频的模拟信号数字化时,将其采样频率降低,从而降低数据存储量,提高信号处理速度。——来自GPT-3.5的注解
@陈光: 也就是说之前所做的工作更多的是对离散信号的选择和判断;有了生成式模型之后,我们可以称之为“创新式的逼近”。生成式模型可以不是那么准确的,但是可以在一定程度上表达我们的意象。相较于之前的解码模型,我们在某种意义上讲,它变得不精确了,但是它变得更有用了。是不是可以这么理解?@王少楠
对。可以理解为,它传达出来的信息更被人接受了,或者表达的更像人了。之前输出就是一个离散的0和1,或者是或不是。这样的话,大家的使用体验没有那么好。现在的话,即使它在胡说八道,它也在说话。
@陈光: 从读心术要读的内容,即我们想要解读的被试的想法的目标来讲,之前的方法与现在的方法之间最主要的区别是什么?也就是说,现在的方法能多大程度地“读心”?
@孙静远
即使是现在的方法,离读心也还有很长的距离要走。如果现在,我给自己套一个便携式的脑电采集器,我想从这个机器采集的信号中实时的解析出来,我下一句要讲什么,就我目前对这个领域发展的理解,还是很大程度上不能实现的。限制主要在于所采集的信号的信噪比低。目前高质量的信号采集设备大多是侵入式的信号采集装置,但是这种设备不太容易普及。另外,尽管生成式模型让我们这个领域有了一个比较大的进步,即结果的可读性,但是其解析出来的内容的精确性是不能完全得到保证的。比如说我看到一只狗,但是我解析出来的图像虽然可能都是狗,但狗的毛色、品种,这些更为细节的特征可能和我实际看到的狗是不一样的。
@王少楠
所以通俗上来说,生成式模型在神经解码上起到的作用,就是一个语言的美化器或优化器。之前可以做到的就是我输入一些脑电的信号或者是神经影像的信号,我们可以提供给被试一些不连续的离散的词汇。但有了生成式模型,就仿佛套了一层外壳,就可以把这些词汇串起来,生成人在草地上躺着,天气非常好之类的信息。这些信息不一定准确,但是人看起来会更加的舒适。
@陈光: 我理解神经解码可以对我们所想以及我们所感知的东西做一定程度的解码。对于目前“读心”要解码的内容而言,这两者是不是完全不一样?
@孙静远
我个人理解两者是不太一样。如果我们想要重建的东西是人类实际感知到的刺激,如看到、听到的东西,那么我们所要重建出来的东西是明确的。只需要让我们的模型往目标上重建,就没有问题。但是如果说,这个东西是被试想象出来的内容,甚至连被试本身都无法准确描述他想象的是什么。这就给我们设置了一个障碍,即模型没有一个准确的重建目标;没有答案作参照就没办法评估,这个技术就很难演进。
@王少楠
除了前面静远提到的实验重建目标是否明确这样一种区别以外,观察图像是一种感知(perception)行为,这是一种自发的过程。我们不需耗费太多的精力,我们生下来就会。但如果是用意念去控制一些东西的话,则是一种生产(production)的过程,这是需要被试主动地意念输出,来控制某个东西。科学研究目前还是主要集中到感知的过程,因为这样的话,实验的刺激更可控一些。
@陈光: 在脑科学专业领域,模型识别的结果是如何被评价的呢?
@孙静远
我们目前使用的评价指标是语义分类准确率。它关注的是从内容的含义上,模型生成的东西和被试实际看到的东西是不是同一个东西。我们会使用一个已经训练好的图像分类器,来评估模型生成的图像和被试真实看到的图像是否同属一类。另外还有一个指标是衡量模型生成的图像和被试看到的图像之间像素级别的重叠程度,即两张图像在多大程度上一样。但是,由于fMRI信号的限制,生成模型的限制,我们目前想要做到像素级别的完全复制是非常困难的。
@王少楠
除了这些机器的评价指标以外,还有一种常见的评价方法,就是用人去评。选取大部分人都认同的结果作为金标准,来评价机器所产生的的文本或图像的质量。
@陈光: 我们前面提到了生成式模型的诸多优点,那么其在神经解码领域最主要的局限性又是什么?
@孙静远
可靠性。模型生成的内容在质量上不是完全可靠的。
@王少楠
大模型的词表非常大,但目前我们收入的人的神经影像的词汇量非常受限,可能最多只有几千。但是解码的时候需要在几千万个词汇上去检索,所以最后匹配到的结果并不是特别的好,所以现在的技术一般会在大模型的基础上做一些限制,解码的时候只生成与人看过的内容相关的一些词汇。所以,目前神经影像的发展可能还没有到达大模型的这样丰富的程度。
结语
神经解码的天花板在何处?未来,脑科学世界里的“读心术”会遇上哪些机遇与挑战?“AI问脑”第二期的会议追问下篇内容即将发布,内容更加精彩,敬请期待!