脑机接口最近很火。这要拜科技狂人马斯克入局所赐,当然 Facebook 的加入也让这把火越烧越旺。
学术界有不少进展。《自然-通讯》在 7 月 30 日发表了来自加州大学旧金山分校神经外科教授 Edward Chang 的研究成果,他们实现了实时地解码大脑信号,将“听到”和“说出”的对话转变成语言文字,并且准确率可达 76% 和 61%。
相比马斯克的高调,Edward Chang 这个研究是能够落地的。他们的策略是,当受试者执行“听到”和“说出”任务时,研究人员通过从高密度皮层脑电图阵列记录神经活动(覆盖听觉和感觉运动皮质区域),然后解码这些大脑信号的内容。
至此想必很多人会有疑问:大脑语言信号解码研究的现实意义有多大?语言信号解码能实现到什么程度?脑机革命要来了吗?科幻片里的意识交流会实现吗?本文希望探讨这些问题。
语言解码的一大步
图 | 大脑的语言功能区、嘴唇运动控制区和听觉皮层是 Edward Chang 研究的重点。Broca 失语症患者会产生语言表达缺陷,但其理解能力相对正常,而 Wernicke 失语症患者语言表达很流畅但理解却很差,他会表达出清晰的言辞但却无意义。Broca 失语症的脑损伤部位是额叶运动联合皮层,而 Wernicke 失语症的脑损伤部位在颞叶后部。有看法称,Broca 区就在控制嘴巴、唇运动的皮层附近。(来源:神经科学——探索脑,高等教育出版社,2004)
Edward Chang 这项研究有一些不得不说的细节。在今年 4 月 Edward Chang 发表的《自然》研究中,利用神经信号与人声道咬合部位运动的映射关系进行解码,也就是利用控制嘴唇、舌头、喉部和下颌运动的神经信号来合成语音,这是一个比较独特的解码途径。
这似乎可以类比以视觉信号代替听觉信号的读唇术。不过多位学者认为,如果用人工智能来训练读唇术的话,其准确率比解码脑电信号要准确得多,毕竟前者是确定的视觉信号,而人在说话时的脑电信号有太多未知和不确定,毕竟人工智能更擅长以确定的数据来计算出结果。
对于听觉脑电信号的解码,Edward Chang 则是利用植入于大脑皮层的电极实时获取大脑皮层活动信号,这已经与声道部位的咬合无关,而是直接解码人听到语言后产生的脑电信号。
这本来是无比复杂的研究,Edward Chang 将这个研究简化了许多。他只是对涉及4组简单问答的脑电信号进行了解码。受试者得到的信号都是相对简单的,比如问“你最喜欢哪种乐器”“你最不喜欢哪种乐器”“从 0 到 10,你的幸福指数有多少”“你希望我多久来看你”等。正是这些简单问题的训练,让研究者得到了相对容易判断的信号。
这仍是一项了不起的进步。华南师范大学脑科学与康复医学研究院教授翁旭初评价说,这项语音解码研究在神经科学上的突破并不大,但在临床上的意义更大。由于使用了更多数目的侵入式电极,能够实时解码相对准确的语言信号,而此前的语言解码研究更多是对于书面文字或图片的脑电信号解码,是非侵入式的,解码速度不够快。
疑问仍存。比如,为何目前只能实现百分之六七十的准确率,有哪些影响语言解码准确率的因素?美国西北大学费恩柏格医学院 Marc W. Slutzky 博士对 DeepTech 解释说,尽管这项研究用了 256 个电极,但检测的脑电信号可能还是太少,因为皮层下区域也可能涉及语言功能。另外,这个研究是针对极少样本得出的结果,已经是相对不错的了,要知道,苹果公司的 Siri 经过数百万小时的训练仍然会犯错误。
挑战在后面
人的语言是一个极具创造性的系统,其使用在语法规则外没有任何限制。也就是说,进化数百万年来,我们现实中的对话已经是一个集合了声音、符号、手势、表情在内的成熟的交流体系,并且这个体系仍然在日新月异的不断完善中,而仅仅依赖脑电波信号一种维度来解码这个复杂体系,其难度可想而知。
图 | 感知和言语的正电子发射计算机断层扫描成像(PET)。颜色表示相对脑血流量。红色表示血流量最大,橘黄、黄、绿和蓝色分别表示血流量从大到小依次递减。(来源:神经科学——探索脑,高等教育出版社,2004)
人脑是一个一直在运行的器官,其脑电信号是持续不止的,尤其是在现实中,人脑常常是在执行听说功能的同时,还在进行触觉、视觉、味觉、嗅觉以及运动等多种功能的运行,我们并不清楚不同功能脑区相互干扰的情况是怎样的。在这个脑电信号巨大噪音背景下,Edward Chang 们每个微小的进步都是不容易的。
那么问题来了,我们需要多么精确地了解这些功能的脑电信号才能真正实现复杂的语言解码?
到目前为止,我们仅仅知道人的语言功能与大脑分区有关,并不知道数百亿神经元中的映射详情。
一种可能的研究策略是,通过对大脑神经活动的空间和时间信号进行高分辨率的数据采集,并配合人工智能的机器学习算法(如深度神经网络),将各种感知觉、运动、语言等高级认知功能所对应的神经信号互相分离出来。这样做还具有重要的临床价值。例如,在脑损伤植物人的群体中,有一部分患者会出现运动功能和高级认知功能的分离。换句话说,这些患者虽然不具备任何行为上的交流能力,但却保留着高级的思维能力(如运动和空间想象)。在药物诱导的麻醉状态,也存在类似的现象。密西根大学医学院麻醉系的黄梓芮博士就在尝试让受试者进入麻醉状态进行脑活动解码。但是,由于人类思维和意识内容的丰富性,准确探测大脑高级认知功能、解码甚至还原相对抽象的语言内容,仍然面临巨大的挑战。
语言解码还有很多挑战。语言的解码不仅限于听说带来的声波信号,每个词汇和句子还会给人一种语义,而这个语义就会对每个人的反馈不一样。比如全世界有上万种语言和方言,那么对于同一个语义,不同语言和方言对应脑电信号都可能有差异,甚至对于不同环境成长的同一语言人群以及同一个人在不同年龄段和不同情绪状态下的脑电信号都可能不同。还有,对于同一时间的同一个人,同一个词汇可能都会引起不同刺激程度的脑电信号。
所以多位业内人士的看法是,受试者的背景越接近,这种语言解码的普适性才会更高。当然,严格说来,即使对于同一个人做上无数次解码训练,都可能做不到 100% 的解码准确,因为他的语言思维体系一直在更新。
图 | 一个语言加工模型,标注了书面和口语单词复述任务的各个处理阶段。每个阶段下面表明了由PET成像所观察到的与上述任务特异性相关的皮层区域。(来源:神经科学——探索脑,高等教育出版社,2004)
另外,文字阅读也是一种语言有关的脑电活动,这显然与口语引发的脑电活动不同。不同语言的文字引发的脑电信号也会不一样,象形文字如汉字引发的脑电信号与拉丁字母引发的脑电信号显然会不同,读手语与读唇语显然也会引发不同的脑电信号。以汉语为例,包括翁旭初在内的认知心理学专家认为,汉字是一种二维文字,相对于拼音文字,汉字阅读加工的脑区分布就有自身特点。
也有相对乐观的看法。这类看法认为,如果数据运算足够先进,加上科学分类以及对不确定性因素的控制,是有可能得到相对普适性的脑电解码结果的。
意识对话?
事实上,真正的脑机接口挑战在于意识。在 4 月份 Edward Chang 的《自然》论文发表时,同期杂志引述华盛顿大学 Amy Orsborn 博士看法称,当一个人没有动嘴时,它能否理解其想说的话呢?
这是一个好问题。“想要说话”的脑电信号是否能被解码,也就是人的意识能否解码的问题。毕竟说出来的语言和听到的语言有声波的物理性质,这些物理信号是确定的刺激信号,而意识则拥有较大的模糊不确定性。Edward Chang 没有接这个球,他对媒体回应称,解码某人公开试图说的话足够困难,并且提取他们内心的想法几乎是不可能的。“我没有兴趣开发一种技术来发现人们在想什么,即使它是可能的”。
不过,这并非完全不能实现。曾在美国多年从事康复研究的林方博士认为,如果给受试者一个预告,那么是有可能检测到相应的脑电信号的。比如当警告受试者可能有重物落下的时候,受试者会马上做出预防重物落下的应激反应,这时候的脑电信号就有可能被检测到并分辨出来。德国科学家在今年 4 月《神经科学》(Journal of Neuroscience)发表了一项对大鼠的研究,他们解码了大鼠头部预期运动的信号。
其实 Amy Orsborn 这个问题的进一步延伸就是,人们之间能不能实现无语言的意识对话,或者说是灵魂对话。这已经接近科幻了,就像奇幻电影里的 X 教授,戴上一个头盔就可以进入其他人的意识世界。
但是,如果不是应激冲动的反应,那么就不容易解码。比如每个人在欣赏《蒙娜丽莎》画作时的感受不同,那么如何让一个没有艺术鉴赏能力的中国山村娃娃与一个意大利画家对这幅画作进行意识对话?现实中,这都要跨越语言、艺术、生活阅历的鸿沟,在这种“意识对话”中,我们的计算机需要多么强大才能解码跨越了这么多鸿沟的意识交流呢?
当然,这概率虽然足够小,但也不是等于零。清华大学生物医学工程系脑机接口研究组高小榕教授认为,前述山村娃娃和意大利画家相当于一个地球人和外星人的对话,只要有足够多的训练,也未尝不可能实现。
我们再把这个思维延伸一下,如果脑电解码能力足够强大,是否意味着人类意识能够像电脑数据一样储存在硬盘上呢?
对于这个科幻式的问题,很多学术界人士给出的答案是让人失望的。那些解码数据仅仅是物理信号,并非人脑意识的脑电活动,它难以产生新的信息,也不能进行思维加工。
脑机接口的现实
今天的神经科学并没有日新月异的突飞猛进,而是人工智能的飞速发展给脑机接口带来了空前的机遇。尽管如此,麻省理工学院大脑与认知科学系讲席教授冯国平认为,脑机接口现实的考量是在物理性或确定性更强的功能上实现,但难以碰触深一层的意识。
相对成熟的脑机接口研究是关于人体运动机能。犹他大学生物医学工程团队研发了一款高科技假肢,可以实现意识控制有触觉,能够执行轻松摘葡萄等动作。这个系统由 100 个微电极和导线组成,这个假肢手臂接入了佩戴者的神经系统,实现大脑向机械手臂发送动作信号。在机械手臂上安装了向神经发送信号的传感器,以模仿手抓东西时的感觉。
林方对这类康复设备很看好。她认为,脑机接口的现实意义在于作为辅助工具,帮助那些有语言障碍或者运动障碍的人实现正常的器官功能。比如,一个运动障碍患者本身只有 40% 的某器官运动功能,如果这个脑机接口设备能够帮助患者把功能提高到 80%,那么这不仅是患者的福音,医疗保险公司也会对此乐见其成,因为这会减少医疗资源的投入。
但脑机接口研究需要落地才行。尽管马斯克 Neuralink 的脑机接口项目最为高调,但除了他的设备能够实现电极数目更多、电极更柔软以及设备微型化,但并没有本质上对脑电信号解码的突破。《麻省理工科技评论》引述 Google DeepMind 神经科学理论学家 Adam Marblestone 的看法,将 Neuralink 比作装备精良的登山队,但那座大山仍在那里,“真正需要的应该是一架直升机”。
多数业内人士看法是,如马斯克这类侵入式的脑机接口只能用于病情严重的植物人或中风患者身上,而不能用于普通人,毕竟侵入的设备存在容易带来感染、电池等材料更换等问题,毕竟大脑对自我保护的要求很高。
而对于 Facebook 利用近红外光的可穿戴设备来解码脑电信号的做法,多数人也不认可。因为非侵入式设备的精确性有限,难以实现复杂脑电信号的解码。
现实的做法如 Edward Chang,他们只针对瘫痪而失语的患者,这样能够采用开颅手术后用侵入式设备来解码有限词汇。因为在很多情况下,这些患者的大脑中仍然存在着产生流利语言所需的信息,而现在需要通过新的技术让他们表达出来,那么即使是少数词汇的表达,对于他们的生活质量都是巨大的改善。
Marc W. Slutzky 也持这类看法,对于肌萎缩侧索硬化(ALS)患者或中风患者,如果能实现 200 个词汇信息的接受和表达,只要能达到像 Siri 这类语音识别系统接近 90% 准确率的话,就已经是巨大进步。
本文的撰写还得到了以下人士的帮助,特此致谢:华南理工大学脑机接口与脑信息处理研究中心主任李远清教授,上海交通大学智能计算与智能系统重点实验室张丽清教授,华中师范大学生理学和神经生物学陈其才教授,解放军总医院第七医学中心附属八一脑科医院功能神经外科何江弘主任,福建医科大学附属泉州第一医院神经外科副主任医师何雪阳。