模拟芯片,也能训练了
????如果您希望可以时常见面,欢迎标星????收藏哦~
来源:内容编译自IBM,谢谢。
当模拟芯片用于语言模型时,它们的物理特性限制了它们只能进行推理。但 IBM 研究科学家正在研究几种新算法,让这些节能处理器能够训练模型。
深度神经网络训练需要同时运行多个处理器数天,随着 AI 系统不断扩展,找到更便宜、更有效的方法来执行这种训练变得越来越重要。但 IBM 研究科学家 Tayfun Gokmen 和他的团队正在采取创造性的方法来解决这个问题,开发算法,使模拟 AI 设备能够加速深度神经网络训练的过程——并且比 CPU 或 GPU 更节能。
到目前为止,推理一直是内存计算的主要重点。但 Gokmen 认为,在训练中可以节省更多的能源和计算成本,因为模型训练的计算成本要高得多。不幸的是,当研究人员使用这些内存计算设备进行训练时,它们并不总是表现良好。这些设备中使用的材料(例如电阻式随机存取存储器中使用的原子丝或相变存储器中使用的硫属化物玻璃)存在噪声和切换问题,因此我们必须设计新的算法,使这些设备能够加速深度神经网络工作负载。
在此过程中,他们遇到的一大问题是,许多内存训练算法需要的计算保真度水平在模拟设备上是不切实际的。该团队的方法在解决该问题方面取得了巨大进展,其算法可以满足这一要求。
模拟内存计算
大多数传统芯片设计(如 CPU 或 GPU)都具有独立的内存和处理单元,并且必须在两者之间来回传输数据。这种阻碍芯片延迟的因素被称为冯·诺依曼瓶颈。然而,对于模拟内存芯片,计算和内存之间没有分离,这使得这些处理器与传统设计相比非常经济。数据(在 AI 的情况下是模型权重)不会通过冯·诺依曼瓶颈来回传输。
在模拟设备中,神经网络的模型权重不是保存在晶体管中,而是保存在以物理形式存储它们的设备中。这些单元包含特殊材料,这些材料可以改变其电导率或电阻,以编码 0 到 1 之间的中间值。这种特性意味着单个模拟存储设备可以容纳比单个晶体管更多的值,而装满这些设备的交叉开关可以有效利用空间。但这些模拟单元也有缺点:AI 模型训练会调整模型权重数十亿或数万亿次——对于可以反复开关的数字晶体管来说,这是一项简单的任务——但这些物理存储设备无法处理所有这些切换。数万亿次改变它们的物理状态会破坏它们的结构并降低其计算保真度。
因此,训练通常在数字硬件上进行,然后将权重移植到模拟设备上,在那里它们被锁定以进行推理,不会进一步调整。“这基本上是一次性的努力,”Gokmen 说。“然后你会一次又一次地使用相同的权重。”
然而,训练需要逐步调整,因此基本挑战是如何高效可靠地进行这些更新。他们提出的解决方案是:使用电脉冲同时计算每个权重梯度并执行模型权重更新。但是当你以这种方式执行时,你依赖于设备正确地进行更新,而它们经常会失败——要么是因为随机性,要么是因为设备之间的差异。“一台设备可能会更新一定量,但当你换到另一台设备时,这个量可能会有所不同,”他说。
除了这种不一致之外,材料也存在问题。根据重量值在电导率范围内的位置以及你试图改变它的程度,模拟存储设备可能更难改变以适应。具体来说,Gokmen 说,变化的增量往往在开始时更强,但一旦材料达到高电导率,它就会变得饱和,并且很难进一步调整值。同样,如果你降低材料的电导率,重量一开始会快速下降,然后在范围底部附近饱和。简而言之,Gokmen 说,这些只是在这些类型的设备上训练 AI 模型时可能出错的 10 多个不同因素中的几个。
内存训练算法
IBM 研究部的材料科学家正在致力于在物理层面解决其中一些问题,但与此同时,Gokmen 和团队等其他研究人员正在开发算法来克服模拟设备中的障碍。
该团队针对在模拟内存设备上训练模型的问题采取了两种方法。他们提出的算法称为动态参考模拟梯度累积 (AGAD) 和 Chopped Tiki-Taka 版本 2 (c-TTv2)。这两个算法都是其团队现有算法的修订版——以西班牙国家队著名的“tiki-taka”足球风格命名,该风格涉及大量短传以保持控球权。
利用这些方法,他们解决了由内存计算设备的非理想特性引起的一些问题。这包括噪声量,既包括周期之间的噪声,也包括从一个设备到另一个设备的可变性。“我们还可以解决设备的非线性切换行为,”Gokmen 说,也就是上面提到的饱和问题。在模拟内存 AI 训练期间,这三个问题中的任何一个都会导致模型权重更新不一致。这些算法还有助于校正对称点中的噪声,对称点是一种描述内存设备在输入电脉冲时稳定下来的电导水平的度量。“它可能不是一个固定的点,它可能在四处漂移,并且可能因设备而异,”Gokmen 说。
在模拟内存模型训练的模拟中,他们发现 AGAD 和 c-TTv2 与之前的 TTv2 算法相比,错误率都大大降低。
他们利用这些算法取得的一项重大进展是能够完全在内存中执行模型权重更新,而不是将其转移到数字设备上。“我们确实在内部推动这项工作,”Gokmen 说。“在算法开发方面,我们走在了前面。”现在他们准备在可用的模拟设备上训练小型模型,但这些计划仍在制定中,它们取决于是否有合适的模拟硬件。
下一步
模拟计算领域仍处于起步阶段。尽管通过训练内存模拟处理器,该团队在算法上解决了大约一半的材料问题,但测试结果仍然显示,大型神经网络的性能存在差距。Gokmen 表示,他们的后续工作将探究为什么会出现这种情况。“我们仍然不明白为什么会有这种差距。”
为了巩固研究成果,戈克曼和他的团队正在与伦斯勒理工学院的研究人员合作,为他们在实验中观察到的效应设计数学解释和论证。
IBM 研究院的科学家正在开发运行未来 AI 模型的硬件,包括去年展示的实验核心设计,该设计使用模拟内存计算来处理推理工作负载。还有一些数字处理器可以执行内存计算,包括 IBM 的 AIU NorthPole 芯片,该芯片的灵感来自大脑。从事模拟内存计算的研究人员认为,如果深度神经网络的架构与在模拟设备上运行它们的算法共同设计,那么深度神经网络在这种硬件上的效果会更好,而这些算法是我们实现这一目标的一部分。
参考链接
https://research.ibm.com/blog/analog-in-memory-training-algorithms
END
????半导体精品公众号推荐????
▲点击上方名片即可关注
专注半导体领域更多原创内容
▲点击上方名片即可关注
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3911内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点 “在看” 分享给小伙伴哦