点击蓝字 关注我们
SUBSCRIBE to US
TSINGHUA UNIVERSITY IN BEIJING/BEIJING NATIONAL RESEARCH CENTER FOR INFORMATION SCIENCE AND TECHNOLOGY
据悉,神经网络是一种模仿生物大脑结构和工作原理的计算模型。它们由多个相互连接的简单计算单元(神经元)组成这些单元可以通过连接权重和激活函数来学习和表示复杂的模式。
模仿人脑工作的神经网络能够为计算机视觉提供动力,并推动更多的应用(https://spectrum.ieee.org/topic/artificial-intelligence/)。根据一项新的研究,现在,来自中国的一种使用光子而非电子的神经网络微芯片,被称为太极,可以以千分之一的能量运行人工智能任务和电子任务。
人工智能在分析医学扫描和生成图像等应用中通常依赖于人工神经网络。在这些系统中,被称为神经元的电路组件——类似于人脑中的神经元——被馈送数据并合作解决问题,例如识别人脸。如果神经网络拥有多层神经元,则被称为“深层”。
“Optical neural networks are no longer toy models. They can now be applied in real-world tasks.”
—LU FANG, TSINGHUA UNIVERSITY, BEIJING
随着神经网络的规模和功率的增长,它们在传统电子设备上运行时变得更加耗电。例如,为了训练其最先进的神经网络GPT-3,2022年《自然》杂志的一项研究表明(https://spectrum.ieee.org/dendrocentric-learning),OpenAI花费460万美元运行9200个GPU两周。
电子计算的缺点导致一些研究人员将光学计算作为下一代人工智能的一个有前景的基础进行研究。这种光子方法使用光比电子计算更快、功耗更低。
现在,清华大学和北京信息科学与技术国家研究中心的科学家们开发了“太极”,这是一种光子微芯片,可以在高级人工智能任务中与电子设备一样出色,同时证明其能效高得多。
“光神经网络不再是玩具模型,”清华大学电子工程副教授Lu Fang说,“它们现在可以应用于现实世界中的任务。”
光学神经网络是如何工作的?
开发光学神经网络(https://spectrum.ieee.org/optical-neural-networks)的两种策略要么在微芯片内以特定模式散射光,要么在设备内使光波以精确的方式相互干扰。当光形式的输入流入这些光学神经网络时,输出光对这些设备内执行的复杂操作的数据进行编码。

Fang解释说,这两种光子计算方法都有显著的优点和缺点。例如,依赖散射或衍射的光学神经网络可以将许多神经元紧密地聚集在一起,几乎不消耗能量。基于衍射的神经网络依赖于光束穿过代表网络操作的光学层时的散射(https://www.mdpi.com/2076-3417/12/11/5338)。然而,基于衍射的神经网络的一个缺点是它们不能重新配置。每个操作字符串基本上只能用于一个特定的任务。
相比之下,依赖于干扰的光学神经网络可以很容易地重新配置(https://www.degruyter.com/document/doi/10.1515/nanoph-2022-0485/html?lang=en)。基于干扰的神经网络通过通道网格发送多个波束,它们在这些通道相交处进行干扰的方式有助于执行设备的操作(https://www.nature.com/articles/nphoton.2017.104)。然而,它们的缺点是干涉仪也很笨重,这限制了这种神经网络的扩展能力。它们也消耗大量的能量。
此外,当前的光子芯片经历不可避免的错误。试图通过增加这些设备中的神经元层的数量来扩大光学神经网络的规模通常只会成倍地增加这种不可避免的噪声。这意味着,到目前为止,光学神经网络仅限于简单的模式识别等基本的人工智能任务。Fang说,换句话说,光学神经网络通常不适合先进的、现实世界的应用。
研究人员表示,相比之下,太极是一种结合了衍射和干涉方法的混合设计。它包含衍射单元簇,可以在紧凑的空间中压缩数据以进行大规模输入和输出。但他们的芯片也包含用于可重新配置计算的干涉仪阵列。Fang说,为太极开发的编码协议将具有挑战性的任务和大型网络模型划分为子问题和子模型,这些子问题和模型可以分布在不同的模块中。
太极是如何将这两种神经网络融合在一起的?
先前的研究通常试图通过模仿电子神经网络所做的事情来扩大光学神经网络的容量——增加神经元层的数量。相反,太极的架构通过将计算分布在多个并行运行的小芯片上来扩大规模。这意味着太极可以避免光学神经网络将多个神经元层堆叠在一起时出现的误差呈指数级累积的问题。“这种‘shallow in depth but broad in width’的架构保证了网络的规模,”Fang说。

例如,以前的光学神经网络通常只有数千个参数——神经元之间的连接,模仿连接人脑中生物神经元的突触(https://spectrum.ieee.org/neuromorphic-computing-liquid-memristor)。相比之下,太极拥有1396万个参数。
以前的光学神经网络通常仅限于将数据按十几个类别进行分类,例如,计算图像是否代表10个数字中的一个。相比之下,在Omniglot(https://paperswithcode.com/dataset/omniglot-1)数据库中测试了来自50种不同字母的1623个不同手写字符,太极的准确率为91.89%。
科学家们还在内容生成的高级人工智能任务上测试了太极。他们发现它可以制作约翰·塞巴斯蒂安·巴赫风格的音乐片段,并生成文森特·梵高和爱德华·蒙克风格的数字和风景图像。
总的来说,研究人员发现太极显示出每秒约160万亿次运算/瓦的能量效率和每平方毫米近880万亿次乘法累加运算(神经网络中最基本的运算,https://spectrum.ieee.org/new-devices-for-analog-ai)的面积效率。这使它的能效比最新的电子GPU NVIDIA H100(https://spectrum.ieee.org/nvidia-gpu)高出1000多倍,也比以前的其他光学神经网络高出大约100倍的能效和10倍的面积效率。
尽管太极芯片结构紧凑且节能,但Fang提醒说,它依赖于许多其他系统,如激光源和高速数据耦合。她指出,这些其他系统比单个芯片体积大得多。未来,Fang和她的同事们的目标是在芯片上添加更多的模块,使整个系统更加紧凑和节能。
科学家们于4月11日在《科学》杂志上在线详细介绍了他们的发现(https://www.science.org/doi/10.1126/science.adl1203)。
微信号|IEEE电气电子工程师学会
新浪微博|IEEE中国
 · IEEE电气电子工程师学会 · 
继续阅读
阅读原文