打破冯·诺依曼结构,中国研发出第一款类脑芯片
扫描二维码
随时随地手机看文章
人工智能技术(AI)现在已是如火如荼的发展着,各种传感器,机器学习,外围设备五花八门,然而,其核心的数据处理硬件架构仍基于经典的冯·诺依曼结构。冯·诺依曼结构已有七八十年历史,这就好比已经直立行走的智人,仍长着一颗猩猩的脑袋。这就出现了冯·诺依曼瓶颈,也就是说CPU再快,也要等内存,因为CPU和内存之间的性能差距越来越大。
冯·诺依曼结构
冯·诺依曼结构中,计算模块和存储单元是分离的,CPU在执行命令时必须先从存储单元中读取数据。每一项任务,如果有十个步骤,那么CPU会依次进行十次读取,执行,再读取,再执行。.. 这就造成了延时,以及大量功耗(80%)花费在了数据读取上,当然多核、多CPU或一些常用数据的就地存储会一定程度上缓解这些问题,但这种中心处理的架构会限制处理能力的进一步发展,好比诺大个北京城,如果所有的政治、经济、文化活动都集中在市中心,为了生活,人们必须穿城而过,任你路修到二十环,还是一个词,堵死。
学术界和工业界出现了向人类大脑学习体系结构的趋势,大脑的处理单元是神经元,内存就是突触。神经元和突触是物理相连的,所以每个神经元计算都是本地的,而且从全局来看神经元们是分布式在工作。
神经元和突触
前几年轰动全球的IBM的仿人脑芯片TrueNorth也模仿了人类大脑的神经元结构,它的计算效率和可扩展性都远超现在的计算机,并且宣称可用于手势识别、情绪识别、图像分类和对象追踪、实时语音识别等领域。而记者采访的团队AI-CTX,他们的模型基于亿万个可以相互连接的仿生神经元,每个神经元都具有跟人脑神经元类似的电学特性与动态参数,具有简单的运算与存储功能,这些神经元像大脑神经元一样,通过脉冲相互沟通。
在现实层面,他们的每个芯片可以搭载百万个神经元,亿万个神经突触,可以自由扩展的芯片网络又如同大脑皮层的不同的区域,分别在不同的层级上, 可以并行的,同时的处理任务,从而指数型地提高了数据处理的效率。又因各个指令及相应数据都存储在同一芯片中,所有的计算资源不会因为等待存储访问而导致浪费,功耗也比现在基于冯·诺依曼硬件架构的处理器低两到三个数量级。
看看Alpha Go,下一场棋耗电几千瓦,而李世石,大脑只耗20瓦,所以虽然输了,但人类的尊严还算没有低到尘埃里。
李世石对阵Alpha Go
除了运算速度快,能耗低,团队还有一项核心的IP,就是一种特殊的布线方式,使各芯片之间的交流可以突破物理限制,无限的增加新的芯片于原有网络,这样,运算能力也可无限增加。而传统的冯·诺依曼结构,如果要增加CPU的数量,那么CPU之间的沟通是越发困难的,因为运算能力有其上限。在处理AI领域数据上,AI-CTX团队基于仿生神经网络设计出芯片架构比之冯·诺依曼结构无疑是革命性的,那么市场上是否有用类似方案的对手呢?
与IBM TrueNorth芯片的对比
CTO 乔宁很自信的说:“Intel,三星等正在研发的加速器类产品在实时处理动态数据速度上比我们慢,能耗还高一个数量级。而跟IBM的TrueNorth芯片相比,我们的模拟神经元具有更复杂的非线性参数,硅面积只有IBM的0.5%,能耗只有10%,基于我们的芯片架构,每个神经元能轻松建立多达8千个连接,而现有IBM Truenorth 芯片只有256个连接。而且我们第一代原型一出来就已经有订单了!”
当然,我们也要在这里指出,三星的加速器是做静态图像处理,TrueNorth是一个通用实验芯片,不专门针对任何应用,虽然已经有不少人在开发相应的芯片应用(识别,追踪,决策)。
AI-CTX的芯片不适合处理静态硬盘数据(静态图片及数据),但非常擅长于处理包含时间信息的数据,比如,动态的传感器数据,自然界的自然信号(温度,气压),人体信号(心跳EEG),网络数据,IoT,股票高速决策等数据的处理。
AI-CTX目前的主要切入的应用场景包括实时在线(always-on)的应用,比如低功耗的智能便携设备,移动设备,健康检测EEG,IoT设备,网络安全等。还有另一块是高速低功耗应用,比如自动驾驶,手势识别,声音识别等。更长远来看可以用于大数据处理和深度学习等领域。