大脑活动可以利用人工智能来变成文本?
扫描二维码
随时随地手机看文章
计算机生成的大脑图像美国的研究人员跟踪了人们说话时的神经数据。
读心术离现实又近了一步:科学家已经开发出可以将大脑活动转化为文本的人工智能。
虽然该系统目前只能在当某人大声说话时检测到特定神经模式,但专家表示,它最终可能会帮助那些不能说话或打字的病人进行交流,比如那些患有闭锁综合症的病人。
旧金山加利福尼亚大学的约瑟夫·马金博士(Dr Joseph Makin)是这项研究的合著者,他说:“我们还没有做到这一点,但我们认为这可能是声音“假肢”的基础。”
Makin和他的同事们在《自然神经科学》(Nature Neuroscience)杂志上发表文章[1],揭示了他们是如何开发这个系统的。首先招募了四名参与者,然后在他们的大脑中植入了电极阵列来监测神经元的变化。
这些参与者被要求大声朗读50个句子,包括“蒂娜·特纳是一个流行歌手”和“那些小偷偷走了30个珠宝”。研究小组在他们说话时追踪他们的脑部神经活动。
然后,这些数据被输入一个机器学习算法,这是一种人工智能系统,可以将每个口语句子的大脑活动数据转换成一串数字。
为了确保这些数字只与语言有关,该系统将一小块大脑活动数据预测的声音与实际录制的声音进行了比较。然后,这串数字被输入到系统的第二部分,系统会将其转换成一系列的单词。
起初,系统给出的都是毫无意义的句子。但是,当系统将每个单词序列与实际大声朗读的句子进行比较时,它得到了改进,了解了数字串与单词之间的关系,以及哪些单词容易相互跟随。
随后,研究小组对该系统进行了测试,仅根据说话时大脑的活动就生成了书面文本。
但这个系统目前并不完美。比如,《音乐家们的绝妙和声》被编译为《菠菜是名歌手》,《一卷靠墙的铁丝》被编译为《罗宾会穿黄百合吗》。
然而,该团队发现,新系统的准确性远远高于以前的方法。虽然准确性因人而异,但对于一个参与者来说,平均每个句子只有3%需要更正——高于专业人工抄写员5%的单词错误率。但是,该团队强调,与后者不同,该算法只能处理少量的句子。
Makin说:“如果你试图跳出(使用的50个句子)这个范围,解码就会变得更糟。”他补充说,这套系统可能需要结合学习特定的句子、从大脑活动中识别单词以及识别英语中的一般模式。
该团队还发现,在一名参与者的数据上训练算法,意味着从最终用户那里需要的训练数据会更少——这可能使训练对患者来说不那么繁重。
任教于马斯特里赫特大学的Christian Herff 博士是这个领域的专家,没有参与这项研究。他说这项研究着实令人兴奋,因为该系统对每个参与者使用的训练数据不到40分钟,而且只收集了有限的句子,而不是通常所需的数百万小时。
“通过这样做,他们达到了迄今为止尚未达到的准确性水平,”他说。
然而,他指出,该系统还不能用于许多严重残疾患者,因为它依赖于人们大声说出一个句子时所记录的大脑活动。
他说:“当然,这是一项了不起的研究,但那些人也可以使用‘OK Google’。”“这不是思想的翻译,而是涉及语言的大脑活动。”
Herff说,人们现在还不用担心别人会读到他们的想法:大脑电极必须被植入,而想象中的语言和内心的声音是非常不同的。
但是谢菲尔德大学的脑机接口专家Mahnaz Arvaneh博士说,现在考虑伦理问题很重要。她说:“我们仍然离机器能够读懂我们的想法非常、非常遥远。但这并不意味着我们不应该考虑它。”