史上最大AI芯片诞生:4.6万mm²!40万核心!

2019-11-11 19:01:49

半导体行业盛会在美国斯坦福大学举行,在此次会上,芯片初创公司Cerebras在Hot  Chips上展出了号称是“世界上最大”的半导体AI芯片Wafer Scale Engine(以下简称“WSE”)。

全球最大AI芯片:46225mm²,1.2万亿晶体管

据介绍,WSE芯片基于台积电16nm工艺,核心面积超过46225mm²,标签飞达,供料器,贴片机,集成了高达1.2万亿个晶体管。这是个什么概念呢?目前最大的GPU芯片——NVIDIA用于AI加速的GV100大核心,集成了211亿晶体管(核心面积815mm²)。WSE芯片晶体管数量是这个最大的GPU芯片的60倍,面积则是它的56倍多。以晶圆的面积来作为比较的话,WSE芯片的面积比8英寸的晶圆的面积还要大,当然,比12英寸的晶圆的面积还是要小一些。

也就是说一块12英寸的晶圆可能只能产出一个WSE芯片,这确实有点吓人。标签飞达,标签供料器,贴片机,全球最大芯片确实不是“浪得虚名”。史上最大芯片跟网球对比。Cerebras 表示,如果没有多年来与台积电的密切合作,他们不可能取得这个创纪录的成就。台积电是全球最大的半导体代工厂,在先进工艺技术方面处于领先地位。WSE芯片由台积电采用先进的16nm制程技术制造。

400000个AI优化的内核

WSE包含40万个AI优化的计算内核,具有灵活性、可编程性,并针对支持所有神经网络计算的稀疏线性代数进行了优化,SLAC的可编程性保证了内核能够在不断变化的机器学习领域运行所有的神经网络算法。因为GPU和TPU是密集的执行引擎——引擎的设计永远不会遇到0——所以它们即使在0时也会乘以每一个元素。

当50-98%的数据为零时,如深度学习中经常出现的情况一样,大多数乘法都被浪费了。由于Cerebras的稀疏线性代数核心永远不会乘以零,所有的零数据都被过滤掉,可以在硬件中跳过,从而可以在其位置上完成有用的工作。

超大的片上内存

内存是每一种计算机体系结构的关键组成部分。靠近计算的内存意味着更快的计算、更低的延迟和更好的数据移动效率。高性能的深度学习需要大量的计算和频繁的数据访问。这就要求计算核心和内存之间要非常接近,而在GPU中却不是这样,GPU中绝大多数内存都很慢,而且离计算核心很远。WSE芯片包含了比迄今为止任何芯片都要多的内核和本地内存,并且在一个时钟周期内拥有18GB的片上内存。

WSE上的核心本地内存的集合提供了每秒9 PB的内存带宽——比最好的GPU大3000倍的片上内存和10000倍的内存带宽。

低延迟、高带宽的独特通信结构

Cerebras WSE芯片内部拥有高达40万个内核,由于这些内核和片上内存都是集成在单个晶圆上互连的单芯片,核心更靠近内存,所有通信也都在芯片上进行,通信带宽高、延迟低,因此核心组可以以最高效率进行协作。

此外,WSE上还使用了处理器间通信结构Swarm,它以传统通信技术功耗的一小部分实现了带宽的突破和低延迟。Swarm提供了一个低延迟、高带宽的2D网格,它将WSE上的所有400,000个核连接起来,每秒的带宽总计达100 petabits。

要知道NVIDIA的NVLink 2.0最大带宽也不过300GB/s,算下来也就是2.4Tb/s,WSE的内部带宽是现有水平的3.3万倍之多。

为AI而生

正如前面所介绍的,Cerebras WSE中的46,225平方毫米的芯片面积上包含40万个AI优化的核心,无缓存、无开销的计算内核,以及和18千兆字节的本地化分布式超高速SRAM内存,内存带宽为每秒9 PB。

这些核心通过细粒度、全硬件、片上网状连接通信网络连接在一起,可提供每秒100 petabits的总带宽。更多核心、更多本地内存和低延迟高带宽结构,共同构成了面向AI加速任务的最佳架构。

“Cerebras WSE”专为人工智能设计而设计,其中包含了不少基础创新,解决了限制芯片尺寸的长达数十年的技术挑战 - 如良品率,功率传送、封装等,推动了最先进技术的发展和包装,每个架构决策都是为了优化AI工作的性能。通过加速神经网络训练的所有元素来实现这些性能提升。神经网络是一种多级计算反馈回路。

输入在循环中移动速度越快,循环学习的速度越快,即训练时间越短。可以通过加速循环内的计算和通信来加速输入的循环速度。

Cerebras面临的挑战

Cerebras Systems公司位于美国加州Los Altos,拥有194名员工。Andrew Feldman是Cerebras Systems公司的CEO,他曾创建微型服务器公司SeaMicro,并以3.34亿美元的价格卖给了AMD。Cerebras CEO Fieldman与 SeaMicro box最初版本合影芯片尺寸在AI任务中非常重要,因为大尺寸芯片可以更快地处理信息,在更短的时间内给出答案。当然,芯片制造商通常不会制造这么大的芯片。在单个晶片的制造过程中通常会出现一些杂质。如果一种杂质会导致一块芯片发生故障,那么晶圆上的多种杂质就会导致多块芯片出问题。

实际制造出的芯片产量仅占实际工作芯片的一小部分。如果晶圆上只有一个芯片,它有杂质的几率是100%,杂质会使芯片失效。但Cerebras设计的芯片留有冗余,一种杂质不会导致整个芯片都不能用。不过即便如此,Cerebras WSE芯片的面积也已经超过了单个8英寸晶圆的面积,这也意味着制造一个WSE芯片可能就需要一个12英寸的晶圆,并且对于这个正方形的芯片来说,用12英寸的晶圆来生产还会有较大的浪费。

所以,有网友质疑称,“这么大的芯片贴在PCB上,要是稍微出现热胀冷缩或者翘曲,焊球阵列可能得崩掉一片”。不过也有业内人士表示,“WSE芯片可以不需要PCB,数据直接接光模块传输”。此外,要想很好的利用这颗芯片,必须要配套的系统和软件。官方称,WSE仅支持在极少数系统中运行,但是并未指出可以在哪些系统中运行。