大型语言模型(LLM)经过优化,能够预测后续话语,并使用上下文嵌入适应任务,可以在接近人类熟练程度的水平上处理自然语言。本研究表明,当大型语言模型(LLM)处理日常对话时,人脑中的神经活动与大型语言模型(LLM)中语音和语言的内部上下文嵌入呈线性关系。
基于嵌入的语言的相似表示
我们最近发表在《自然人类行为》上的研究调查了基于 Transformer 的语音转文本模型中的内部表征与人脑在真实对话中神经处理序列之间的一致性。在该研究中,我们分析了使用颅内电极记录的自发对话过程中的神经活动。我们将神经活动模式与 Whisper 语音转文本模型生成的内部表征(嵌入)进行了比较,重点关注该模型的语言特征如何与大脑的自然语音处理对齐。
对于听到的(在语音理解期间)或说出的(在语音产生期间)每个词,我们从语音转文本模型中提取了两种类型的嵌入——来自模型语音编码器的语音嵌入和来自模型解码器的基于词的语言嵌入。我们估计了一个线性变换,以根据每次对话中每个词的语音转文本嵌入来预测大脑的神经信号。研究表明,人脑语音区域的神经活动与模型的语音嵌入之间以及大脑语言区域的神经活动与模型的语言嵌入之间存在显著的一致性。以下动画展示了这种一致性,该动画模拟了大脑对受试者语言理解的神经反应序列:
序列的 brain’s neural responses to subjects’ language comprehension as they listen to the sentence “How are you doing?”.
随着听众处理传入的口语单词,我们观察到一系列神经反应:最初,当每个单词被清晰表达时,语音嵌入使我们能够预测沿着颞上回(STG)的语音区域中的皮质活动。几百毫秒后,当听众开始解码单词的含义时,语言嵌入会预测布罗卡区(位于额下回;IFG 中)的皮质活动。
转向参与者的产生,我们观察到不同的(反向的!)神经反应序列:
序列 of neural responses to subjects’ language production as they answer “feeling fantastic".
更仔细地观察这种对齐方式,在大约 500 毫秒之前发音这个词(当受试者准备发音下一个词时),语言嵌入(以蓝色描绘)预测布罗卡区的皮质活动。几百毫秒后(仍然在单词开始之前),语音嵌入(以红色描绘)预测运动皮层(MC)的神经活动,因为说话者计划发音语音序列。最后,在说话者发音这个词之后,当听众听到自己的声音时,语音嵌入预测 STG 听觉区域的神经活动。这种动态反映了神经处理的顺序,首先是在语言区域计划说什么,然后在运动区域计划如何表达它,最后在感知语音区域监测所说的内容。
下图说明了全脑分析的定量结果:对于每个单词,给定其语音嵌入(红色)和语言嵌入(蓝色),我们预测了每个电极在单词开始前 -2 秒到 +2 秒的时间范围内(图中的 x 轴值为 0)的神经反应。这是在语音产生(左图)和语音理解(右图)期间完成的。相关图表说明了作为电极在各个大脑区域的延迟函数的神经活动预测的准确性(相关性)。
Fitting speech and language embeddings to human brain signals at production and comprehension.
在语音产生过程中,很明显,IFG 中的语言嵌入(蓝色)在感觉运动区域中的语音嵌入(红色)达到峰值之前达到峰值,随后是 STG 中的语音编码峰值。相比之下,在语音理解过程中,峰值编码转移到词开始后,STG 中的语音嵌入(红色)明显早于 IFG 中的语言编码(蓝色)达到峰值。
总而言之,我们的研究结果表明,语音转文本模型嵌入为理解自然对话中处理语言的神经基础提供了一个有凝聚力的框架。令人惊讶的是,虽然 Whisper 仅为语音识别而开发,没有考虑大脑如何处理语言,但我们发现其内部表征与自然对话期间的神经活动相一致。这种对齐方式并非保证 - 负面结果将显示嵌入和神经信号之间几乎没有或没有对应关系,表明该模型的表征未捕获大脑的语言处理机制。
LLM 和人脑之间的对齐所揭示的一个特别有趣的概念是神经处理中的“软层次结构”的概念。虽然大脑中涉及语言的区域(例如 IFG)倾向于优先考虑单词级别的语义和句法信息 - 如与语言嵌入(蓝色)更强的一致性所示 - 但它们也捕获较低级别的听觉特征,这从与语音嵌入(红色)的较低但显着的一致性中可以明显看出。相反,较低阶的语音区域(如 STG)倾向于优先考虑声学和音素处理 - 如与语音嵌入(红色)的更强对齐所示 - 它们也捕获单词级别的信息,这从与语言嵌入(蓝色)的较低但显着的一致性中可以明显看出。
LLM 和人脑之间的共享目标和几何结构
LLM 经过训练,可以通过使用简单的目标来处理自然语言:预测序列中的下一个单词。在《自然神经科学》上发表的一篇论文中,我们发现,与 LLM 类似,听众大脑的语言区域会尝试在说出下一个单词之前预测它。此外,与 LLM 类似,听众在单词开始之前对其预测的信心会改变单词发音后的惊喜程度(预测误差)。这些发现为自回归 LLM 和人脑共享的预发音预测、发音后惊喜和基于嵌入的上下文表征的基本计算原理提供了令人信服的新证据。在《自然通讯》上发表的另一篇论文中,该团队还发现,自然语言中单词之间的关系(如 LLM 嵌入空间的几何结构所捕获的那样)与大脑在语言区域中引起的表征的几何结构(即大脑嵌入)相一致。
LLM 和人脑处理自然语言方式之间的差异
虽然人脑和基于 Transformer 的 LLM 在处理自然语言方面共享基本计算原理,但它们的底层神经回路架构却截然不同。例如,在一项后续研究中,我们研究了与人脑相比,信息如何在基于 Transformer 的 LLM 的层之间处理。该团队发现,虽然跨层非线性变换在 LLM 和人脑的语言区域中相似,但实现方式却大相径庭。与同时处理数百到数千个单词的 Transformer 架构不同,语言区域似乎以串行方式、逐个单词、循环地和时间上分析语言。
总结和未来方向
该团队的工作积累的证据揭示了人脑和深度学习模型处理自然语言方式之间的几个共享计算原理。这些发现表明,深度学习模型可以为理解大脑基于统计学习、盲优化和直接适应自然的神经代码提供一种新的计算框架。同时,Transformer 语言模型的神经架构、语言数据的类型和规模、训练协议与人脑在社会环境环境中自然获得语言的生物结构和发育阶段之间存在显着差异。展望未来,我们的目标是创建创新的、受生物学启发的、具有改进的信息处理和在现实世界中运行能力的工神经网络。我们计划通过调整更符合人类体验的神经架构、学习协议和训练数据来实现这一目标。
致谢
所描述的工作是谷歌研究院与普林斯顿大学神经科学研究所和心理学系的哈森实验室、希伯来大学商学院和认知系的 DeepCognitionLab 以及纽约大学朗格尼综合癫痫中心的研究人员长期合作的结果。
关注我获取更多资讯

