不用开口,AI将大脑活动转化为文本,单句错词仅3%
扫描二维码
随时随地手机看文章
继喉咙皮肤震动就能读出想说的话之后,阅读大脑思想再往前进一步,即使不用说话,AI系统就能将大脑活动转化成文本内容。
目前,该系统已经可以检测到有人大声说话时的神经模式,离最终目标的实现还有很长一段距离,但是专家表示,最终成型的系统可以帮助无法说话或打字的患者,例如患有一些症状的患者,进行交流。
加州大学旧金山分校Joseph Makin博士及其他研究者在杂志上发表了研究,文章揭示了他们如何通过招募四名将电极阵列植入其大脑中以监测癫痫发作的参与者开发这一系统的。Joseph Makin表示:“这可能是‘语言假肢’的基础。”
论文链接:
https://www.nature.com/articles/s41593-020-0608-8
实验参与者被要求多次朗读50个固定句子,比如“蒂娜·特纳是流行歌手”和“那些小偷偷走了30件珠宝”,研究者们跟踪了他们讲话时的神经活动。这些数据随后被输入到机器学习算法中,系统能将每个口述句子的大脑活动数据转换为数字字符串。
为了确保数字仅与语音方面有关,系统将根据大脑活动数据的小块预测的声音与实际记录的音频进行了比较,然后将数字字符串输入用来转换为单词序列的系统的第二部分。
万事开头难,开始时系统会显示不少废话,但当系统将单词的每个序列与实际朗读的句子进行比较时,通过不断改善,从而了解了数字串与单词之间的关系以及哪些单词趋于彼此相连。团队接下来对系统进行了测试,仅从语音过程中的大脑活动生成书面文本。
系统并不完美,“那些音乐家很合拍”被解释为“菠菜是著名的歌手”,而“一卷电线躺在墙上”变成“威尔宾会戴黄色百合花”。但是,新系统的准确性远远高于以前的方法,尽管准确度因人而异,但对于一名参与者,平均每个句子仅需要纠正3%的单词,高于专业人类笔录者5%的单词错误率。但是,团队担心该算法仅能处理少量句子。
Makin说:“如果使用50个句子之外的单词,解码会变得很糟糕。”他补充说,系统可能依赖于学习特定句子,从大脑活动中识别单词以及识别英语一般模式的组合 。
研究小组还发现,根据一个参与者的数据对算法进行训练意味着最终用户需要的训练数据更少,这可以减少对患者的繁琐训练。
马斯特里赫特大学的专家Christian Herff博士没有参加这项研究,他认为这项研究很有意思,因为系统只为每个参与者使用不到40分钟的训练数据,并且句子的收集数量有限,而不是需要几个小时的数百万数据。“这让他们达到了迄今为止尚未达到的准确性水平。”
但是该系统尚不能用于许多严重残疾的患者,因为该系统依赖于大声说出句子的人记录的大脑活动。他说:“当然,这是一项了不起的研究,但是那些人也可以使用'OK Google就好了',这不是思想的翻译,而是言语中涉及的大脑活动。”
Herff说,人们现在还不必担心别人会读懂他们的想法,这必须要植入大脑电极,而想象中的语音与内在的声音大不相同。 谢菲尔德大学脑机接口专家Mahnaz Arvaneh博士认为,现在考虑道德问题很重要。她说:“我们距离机器能够读懂我们的思想的距离仍然非常非常遥远。但这并不意味着我们不应该考虑它,我们也不应该计划它。”