全球十大AI训练芯片大盘点：华为昇腾910是中国唯一入选-市场-电子元件技术网

你的位置：首页 > 市场 > 正文

全球十大AI训练芯片大盘点：华为昇腾910是中国唯一入选

发布时间：2019-10-16 责任编辑：lina

【导读】英国一名资深芯片工程师James W. Hanlon，盘点了当前十大AI训练芯片。并给出了各个指标的横向对比，也是目前对AI训练芯片最新的讨论与梳理。其中，华为昇腾910是中国芯片厂商唯一入选的芯片，其性能如何，也在这一对比中有了展现。

AI 芯片哪家强？现在，有直接的对比与参考了。

英国一名资深芯片工程师James W. Hanlon，盘点了当前十大AI训练芯片。并给出了各个指标的横向对比，也是目前对AI训练芯片最新的讨论与梳理。其中，华为昇腾910是中国芯片厂商唯一入选的芯片，其性能如何，也在这一对比中有了展现。

Cerebras Wafe r-Scale Engine

这一芯片于今年8月份正式面世，被称为“史上最大AI芯片”，名为“晶圆级引擎”（Cerebras Wafer Scale Engine，简称WSE）。

其最大的特征是将逻辑运算、通讯和存储器集成到单个硅片上，是一种专门用于深度学习的芯片。

一举创下4项世界纪录：

1、晶体管数量最多的运算芯片：总共包含1.2万亿个晶体管。虽然三星曾造出2万亿个晶体管的芯片，却是用于存储的eUFS。

2、芯片面积最大：尺寸约20厘米×23厘米，总面积46225平方毫米。

3、片上缓存最大：包含18GB的片上SRAM 存储器。

4、运算核心最多：包含410,592个处理核心

之所以能够有如此亮眼的数据，直接得益于其集成了84个高速互连的芯片，单个芯片在FP32上的峰值性能表现为40 Te ra FLOPs，芯片功率达15千瓦，与AI集群相当。

其核心数据为：

• 7nm+EUV 工艺，456平方毫米

• 集成4个96平方毫米的 HBM2栈和 Nimbus IO处理器芯片

• 32个达芬奇内核

• FP16性能峰值256TFLOPs (32x4096x2) ，是 INT8的两倍

• 32 MB的片上 SRAM (L2缓存)

• 功耗350W

互联和IO数据：

• 内核在6 x 4的2d网格封包交换网路中相互连接，每个内核提供128 GBps 的双向带宽

• 4 TBps的L2缓存访问

• 1.2 TBps HBM2接入带宽

• 3x30GBps 芯片内部 IOs

• 2 x 25 GBps RoCE 网络接口

单个达芬奇内核数据：

• 3D 16x16x16矩阵乘法单元，提供4,096个 FP16 MACs 和8,192个 INT8 MACs

• 针对 FP32(x64)、 FP16(x128)和 INT8(x256)的2,048位 SIMD 向量运算

• 支持标量操作

• Intel NNP-T

这是Xeon Phi之后，英特尔再次进军AI训练芯片，历时4年，壕购4家创业公司，花费超过5亿美元，在今年8月份发布。

特别推荐

技术文章更多>>

技术白皮书下载更多>>

热门搜索