AI不仅是最大科技热点,也是未来数十年科技发展趋势。伴随着这股热潮,AI芯片成为了半导体行业的新风向,投资者的新宠。AI芯片经过了2018年的喧嚣,在2019年得到了沉淀。伴随着AI芯片企业的成长,7nm工艺也逐渐成熟,这两者在多元化应用场景的催化之下,也为市场提供了更多的AI芯片产品。
人工智能的运用分成两个阶段,一是学习训练阶段,二是推理阶段。训练芯片通常需要通过大量的数据输入,或采取增强学习等非监督学习方法,训练出一个复杂的深度神经网络模型,这其中以英伟达的GPU表现最为突出。推理芯片则是利用训练好的模型,使用新的数据去“推理”出各种结论,此需求也促进GPU、FPGA和ASIC等不同硬件的发展。
经过几年的发展,很多企业也开始围绕着AI训练芯片或AI推理芯片展开了竞争。在这场大战背后,有几个现象值得关注。
英特尔对英伟达虎视眈眈
伴随着人工智能时代的到来,海量数据的红利,使得AI训练芯片得到了快速发展。在这当中,GPU因其通用性和高性能的优势,被AI训练芯片市场所接受,据相关数据显示,GPU在云端训练市场上占比高达90%。而提到GPU就不得不提到,GPU行业的传奇——英伟达。英伟达在2006以及2007年,分别推出了Tesla架构以及CUDA系列编程环境,降低了将GPU用作于通用计算的难度。
2012年,随着人工智能、深度神经网络技术的突破发展,英伟达也凭借其在GPU领域的积累迅速崛起,股价一路飙升——2015年20美元的股价在2018年到达了292美元的高点。财富的积累,也为英伟达接下来的发展带来了机会。这可以从英伟达在研发上的投入得以体现,英伟达在研发投入上一直保持着增长的趋势,2016到2018财年中增长35%,2019财年前两个季度就投入了11.2亿美元,同比大涨36%。从营收上看,据其第三季度财报数据显示,英伟达2020财年Q3营收达30.14亿美元。
英伟达一路高歌猛进,也使得其他企业盯上了AI这块大蛋糕。2016年英特尔宣布了“以数据为中心”的战略转型,AI的发展离不开数据,从其战略转型中,也不难看出英特尔正在着力布局AI领域。作为一家老牌半导体企业,英特尔雄厚的资金力量和技术积累,为其发展AI芯片奠定了基础。
具体来看,自2016年以后,英特尔就开始陆续收购AI芯片企业——2016 年 8 月,英特尔以 4.08 亿美元收购了 Nervana;2019年12月,英特尔在 AI 芯片领域又出手了,公司宣布以 20 亿美元收购以色列芯片制造商 Habana Labs。有了 Habana Labs的加持,使得英特尔在训练芯片和推理芯片上能够更上一层楼。(Habana Labs的明星产品是两个AI专用芯片:AI 推理芯片 Goya(戈雅)和 AI 训练芯片 Gaudi(高迪)。其中, Gaudi被英国资深芯片工程师James W. Hanlon,评为了当前十大AI训练芯片之一。)
英特尔对AI芯片的未来十分看好。从英特尔公布的消息来看,2017年,英特尔的AI芯片部门收入达10亿美元;2019年,AI收入预计将达到35亿美元,这也意味着英特尔的AI营收两年增长了250%。
在这种增长率的背后,自然离不开产品的支撑。据介绍,2017年英特尔AI收入来主要自于英特尔至强处理器在数据中心中的AI应用,而2019年则包含了其今年最新推出的AI芯片——NNP系列。
2019 年 11 月在人工智能峰会上,英特尔发布了首款云端 AI 专用芯片 Nervana 神经网络处理器(NNP)系列产品。NNP全称 Nervana Neural Network Processor,这是英特尔推出的第一款面向数据中心客户,针对复杂深度学习的专用 ASIC 芯片。Nervana NNP 并不是一枚芯片,而是一个芯片家族。据悉,NNP-T用于训练,NNP-I主打推理。
NNP-T
NNP-T采用了16nm FF+制程工艺,有270万个16nm晶体管,硅片面积680平方毫米,60mmx60mm 2.5D封装,包含24个张量处理器组成的网格。核心频率最高可达1.1GHz,60MB片上存储器,4个8GB的HBM2-2000内存,它使用x16 PCIe 4接口,TDP为150~250W。
NNP-I
NNP-I采用了10nm工艺,基于Ice Lake处理器,在数据中心推理工作负载中,它的效率达4.8TOPs/W,功率范围可以在10W到50W之间。在ResNet50上,NNP-I在10W的功率水平上每秒可以完成3600次推理,每瓦每秒可以处理360张图片。
相较于英特尔,英伟达则选择在今年的11月中低调地发布了其GPU新品——基于Volta Tesla的新变种,Tesla V100s,来捍卫其在AI领域中的地位。据外媒报道显示,在配置方面,Tesla V100S具有相同的GV100 GPU,该GPU基于12nm FinFET工艺而打造。规范包括5120个CUDA内核,640个Tensor内核和32 GB的HBM2内存。即使这些规格与现有的Tesla V100非常相似,但是GPU和内存时钟速度都进行了一些重大更改。Tesla V100S采用250W设计,在300W的TDP下可提供14.75 TFLOP的最大FP32计算性能。
国内芯片公司蠢蠢欲动
AI新时代的到来,让众多企业站在了同一起跑线上。在这大争之世中,不仅有老牌半导体巨头的强势参与,也有一些国产品牌开始初显锋芒。同时,我国庞大的电子市场所带来的数据资源,也为AI训练芯片的发展提供了肥沃的土壤。在这种环境的驱动下,国产厂商也开始试水训练芯片市场。
华为曾在2018年10月举办了一场主题为AI的大会,2019年8,华为推出了华为昇腾910,该芯片昇腾 910 定位于云端 AI 芯片,着重 AI 训练能力。昇腾910是华为首款采用达芬奇架构的 AI 芯片,基于 7nm 增强版 EUV 工艺,其 AI 核集成了 3D 立方体计算引擎,可以在一个时钟周期内完成 4096 的乘加运算。
据悉,昇腾 910 是目前为止计算密度最大的单芯片,最大功耗为 350W。据infoq的报道称,最新的测试结果表明:在算力方面,昇腾 910 完全达到了设计规格,即:半精度 (FP16) 算力达到 256 Tera-FLOPS,整数精度 (INT8) 算力达到 512 Tera-OPS,重要的是,达到规格算力所需功耗仅 310W,明显低于设计规格的 350W。2019年10月,昇腾910也被James W. Hanlon评为当前十大AI训练芯片之一。
除华为之外,我国互联网巨头也纷纷试水AI训练芯片。在人工智能时代之前,这些互联网企业经过多年的积累,已经建立了生态优势。待到深度学习热潮的爆发,这些互联网企业生态中的数据价值开始凸显,而这就需要AI训练芯片。互联网企业跨界涉足AI训练芯片领域,可以通过资本运作的方式来参与,也可以选择建立新的部门或子公司,通过硬核技术切入AI训练芯片的竞争。
腾讯于2018年8月投资了一家专攻于AI训练芯片的初创企业——燧原科技。在此则消息官宣的20个月后,燧原科技发布了其首款AI训练芯片“邃思”。据悉,邃思DTU主要应用于云端人工智能训练,采用格罗方德12nm FinFET工艺,480平方毫米主芯片上承载141亿个晶体管,算力可达20TFLOPS,最大功耗225W。该芯片基于通用 AI 处理器的设计,具备一定的可编程性,其计算核心拥有 32 个通用独立自主设计的可扩展神经元处理器(SIP),每 8 个 SIP 可以组合成 1 个可扩展智能计算群(SIC)。据燧原科技介绍,邃思 DTU 由 12nm FinFET 工艺打造,集成了 141 亿个晶体管,采用 2.5D 封装,具有 16Gbps 的 PCIe 4.0 接口和 25Gbps 的 ESL 高速互联。
此外,百度也宣布了其在训练芯片上的最新进展——在2018百度AI开发者大会上,李彦宏发布了中国首款云端AI全功能AI芯片“昆仑”,据悉,昆仑系列芯片将由百度自主研发,其中包含训练芯片昆仑818-300,推理芯片昆仑818-100。
2019年12 月,三星和百度官方宣布,百度首款 AI 芯片昆仑已经完成研发,将由三星代工,最早将于明年初实现量产。具体来说,昆仑芯片基于百度自主研发的,面向云、边缘和人工智能的神经处理器架构 XPU 和三星的 14nm 工艺技术。在算力方面,昆仑芯片支持PCIe 4.0 x8,提供 512 GBps 的内存带宽,在 150 W的功率下实现 260 TOPS 的处理能力;它支持针对自然语言处理的预训练模型 Ernie,推理速度比传统 GPU/FPGA 加速模型快 3 倍。
推理芯片市场百家争鸣
相较于训练芯片,推理的市场门槛相对较低,应用场景也更加广泛。这也使得,很多初创公司在推理芯片方面展开了竞争——寒武纪、地平线、依图科技、平头哥、比特大陆等厂商均于今年推出了相关产品。
乘着AI的东风,国内崛起了一批AI独角兽企业。寒武纪作为国内比较早的一批投入到AI芯片的企业,于2019年推出了“思元”系列两款产品——思元270、思元220。其中,思元220是寒武纪在第21届高交会正式发布的边缘AI系列产品。思元220(MLU220)芯片是寒武纪在边缘智能计算领域产品的代表。
据悉,思元 220 是一款专门用于深度学习的 SOC 边缘加速芯片,采用TSMC 16nm工艺,同时采用了FCCSP的封装,尺寸15mmx15mm。客户可以根据实际应用灵活的选择运算类型来获得卓越的人工智能推理性能。思元220的推出也标志寒武纪在云、边、端实现了全方位、立体式的覆盖。
2019年2月27日,AI芯片初创企业地平线宣布,公司获得了6亿美元(约合40亿人民币)左右的B轮融资,估值达30亿美元,借此,地平线也成为全球估值最高的人工智能芯片独角兽企业。
在2019年10月的深圳安博会上,地平线发布了其新一代AIoT芯片“旭日二代”,这是“旭日”系列的第二款边缘AI推理芯片。据悉,旭日二代集成了地平线第二代 BPU 架构(伯努利架构),在边缘端即可实现全视频结构化能力。它的功耗仅2W,算力达4TOPS,其算力利用率高达90%。
依图科技作为我国“AI四小龙”之一,经过近8年的发展,其产品也被成功应用于智能安防、依图医疗、智慧金融、智慧城市、智能硬件等领域。2019年5月,依图推出了“发布即商用”的自研AI芯片求索(QuestCore™),这是一款云端AI推理专用芯片。
据悉,依图QuestCore™使用了16nm工艺,采用SoC解决方案、ARM+ManyCore™架构、LPDDR4X内存,而其64路全高清摄像机实时解码、50路视频解析成为备受瞩目的功能。据介绍,作为云端服务器芯片,求索可以独立运行,不依赖Intel x86 CPU。这也是依图芯片与英伟达GPU、谷歌TPU和其他AI芯片公司研发的AI加速器产品一个很大的不同。
一股挖矿热潮,让比特大陆一举成为最受关注的科技公司之一。而伴随着这股热潮过后,比特大陆也开始思考它的发展之路。众所周知,“矿机”芯片主要以ASIC芯片为主,ASIC芯片的计算能力和计算效率都直接根据特定的算法的需要进行定制的,所以具有体积小、功耗低、高可靠性、保密性强、计算性能高、计算效率高等优势。而这种优势与AI时代下所需要的芯片不谋而合。因而,比特大陆也将目光投向了AI芯片领域,并推出了算丰系列芯片。
2019年9月,比特大陆在福州正式发布其第三代AI芯片——城市大脑专用芯片BM1684,该芯片聚焦于云端及边缘应用的人工智能推理。据悉,该芯片采用台积电12nm工艺,在功耗16瓦的前提下,FP32 精度算力可达到2.2TFlops,INT8算力可高达17.6Tops,在Winograd卷积加速下INT8算力更提升至35.2Tops,并集成高清解码和编码算法,实现了低功耗、高性能、全定制,是一颗低功耗、高性能的SoC芯片。
此外,在2019年云栖大会上,阿里巴巴也重磅发布了其AI推理芯片——含光800,引发了行业的关注。据悉,含光800采用台积电12nm制程工艺,含170亿晶体管,支持PCIe 4.0和单机多卡,今年第四季度开始量产。
据官方介绍,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。相关媒体报道称,含光 800 是阿里成立平头哥芯片公司后第一款正式流片的芯片,是阿里里巴巴第一次使用了自己的硬件架构,也是互联网公司研发的第一款大芯片。
结语
从上述消息中看,根据2019年各个企业发布的新产品显示,国外企业在AI训练芯片市场占有一定优势。国内专注于AI训练芯片的企业相对较少,实力比较雄厚的国内企业几乎不约而同地均选择了训练芯片和推理芯片双路线发展的策略,更多的本土公司则瞄准了AI推理芯片的发展。
而从2012年AI芯片初现峥嵘到现在的8年发展当中,AI早已经由一个概念逐渐落实到各个场景当中。在接下来优胜略汰的市场竞争中,这些企业或许将面临着巨大的压力,或许也会在未来经历一番行业并购,但无论如何这些AI芯片的后续发展仍更令人期待。
来源:半导体行业观察
作者:蒋思莹