XPU:AI时代与异构计算
AI大模型对算力的需求正以指数级速度增长,推动AI算力平台从单一的单机计算向集群计算转变。
AI 芯片的定义为“专对于AI算法做了特殊加速设计的芯片”,按技术架构可大致分为通用图形处理器(GPU)、中央处理器(CPU)、专用集成电路芯片(ASIC)以及现场可编程门阵列(FPGA)等,根据场景可大致分为云端和端侧。
目前,以GPU为代表的AI计算芯片市场规模正迅速增加。据Gartner,2023年全球AI GPU芯片市场规模约为534亿美元,预计2024年同比增速将达25.7%。
由于架构众多,异构计算成为AI时代丰富算力需求下的必然选择。异构计算是通过在单一系统中利用不一样类型的处理器,如CPU、GPU、ASIC、FPGA等协同工作,执行特定任务,以优化性能和效率,更高效地利用不一样的计算资源,满足多种的计算需求。
目前,异构计算大致上可以分为三大类:CPU+GPU、CPU+FPGA、CPU+ASIC,其中CPU可执行通用AI计算,但其通用架构设计使运行效率受限,因此就需要GPU等协处理器进行大规模并行计算。GPU是目前商用最广泛的,IDC多个方面数据显示,在中国AI芯片市场,GPU占有超过80%的市场份额。
本报告聚焦构成AI算力底座的核心芯片,将从CPU、GPU、FPGA和TPU、NPU、DPU等AISC芯片分别展开,梳理国内AI芯片产业的发展现状并探寻各细致划分领域投资机会。
CPU,即中央处理器,常由控制单元、算术逻辑单元(ALU)和寄存器组成,负责指令读取、译码与执行,对研发技术和生态构建具有很高要求,对计算机的性能和运行效率具备极其重大影响。
作为计算机的运算和控制中心,在AI发展浪潮下,我国计算机CPU行业发展进入“快车道”:智算中心的建设拉动了服务器需求,AIPC的更新换代也在推动需求增长。
CPU作为服务器的核心部件,其性能和功耗直接影响着服务器的整体表现。AI大模型加快速度进行发展背景下下,智能算力需求爆发,AI服务器出货量的增长将带动云端CPU需求。
根据TrendForce数据,2023年全球AI服务器(包含搭载GPU、FPGA、ASIC等)出货量近120万台,年增38.4%,占整体服务器出货量近9%,预计至2026年将占15%,2022~2026年全球AI服务器(包含搭载AI训练、推论用的GPU、FPGA、ASIC等加速芯片)出货量年复合增长率预计达29%。
在PC市场,2024年是公认的元年,有望带动新一轮换机潮。业内认为,当前AIPC的发展,类似早期Windows系统的发展,未来有望复制Windows系统的成功。
Canalys预计,2024年全球PC出货量为2.67亿台,同比增长7.6%,其中AIPC出货量在2000万台左右;2027年,将有60%的电脑具备AI解决能力,AIPC出货量将超过1.75亿台。
根据中商产业研究院数据,2024年中国CPU市场规模约为2326亿元。而大模型掀起的AI浪潮,不仅拉动了CPU的需求量开始上涨,也对CPU的功能提出了更高的要求。
“很多AI应用其实可以用不同的XPU处理单元进行计算,CPU的编程更灵活,算子加速能够最终靠通用的编译器处理,相比NPU更通用、更灵活。”此芯科技生态战略总经理周杰此前告诉第一财经,此芯科技的Armv9 CPU包含向量扩展指令加速,能够更好地帮助在端侧运行大语言模型,最新的iPhone 16系列也对CPU进行了升级,包含了矩阵运算指令加速,以更好地支持那些基于CPU的Apple Intelligence应用。
芯片架构是设计和构建微处理器或其他集成电路的基础,定义了芯片的组织架构、功能单元、数据流以及指令集等关键特性。指令集架构则是芯片架构中最顶层的设计,定义了计算机硬件能够执行的所有指令的集合,是计算机系统模块设计中的核心部分,对上层软件和下层硬件都具备极其重大影响。
根据设计原则的不同,指令集架构大致上可以分为两大阵营:复杂指令集计算(CISC)和精简指令集计算(RISC),并由此衍生出x86、ARM、RISC-V等指令集架构。
X86由Intel推出,属于CISC设计,拥有丰富的指令集,支持多种寻址模式和复杂的操作。目前搭载x86架构指令集的处理器主要使用在在PC与服务器上。由于Intel严格把控专利授权,因此x86市场基本被Intel垄断。
在服务器市场,x86是CPU的主流架构。根据IDC数据,2023年x86架构服务器市场占有率为88%,中国x86服务器市场出货量为362万台,预计2024年还将增长5.7%。
Arm架构基于RISC设计,Arm内核微架构IP选择多样、设计精简可靠、在低功耗领域表现优异。Arm的商业模式是专注处理器内核架构的授权,而不直接设计、制造芯片,中立的地位使得Arm通过授权广泛推广了ECO。据悉,目前Arm架构在以移动终端芯片(手机平板等)、机顶盒、视频监控等为代表的移动智能领域获得广泛应用。
整体看,目前云端服务器多采用X86架构,边缘侧采用Arm架构,但近年来格局也在发生改变,Arm架构逐渐向服务器领域渗透。“现在全球很多互联网厂商都开始用Arm架构来设计自己的服务器芯片,比如亚马逊、谷歌、微软等,以及国内的阿里。”周杰对第一财经表示。此外,AIPC搭载NPU,Arm架构或更具优势。Arm CEO Rene Haas在COMPUTEX 2024上表示,Arm预计将五年内拿下Windows PC市场50%以上的份额。
开放精简指令集架构RISC-V近年来也开始兴起。RISC-V完全开源,采用宽松的BSD协议,公司能够完全自由免费使用,同时也允许企业添加自有指令集,而不必开放共享,以支持差异化发展;同时架构简单,短小精悍,不同的部分还能以模块化的方式组成在一起,从而通过一套统一架构满足各种不同应用场景。据了解,目前国内多家初创公司开始用RISC-V进行芯片设计。SHD Group预计,2030年基于RISC-V的SoC营收有望高达920亿美元,2021-2030年复合年增长率高达47%。
“RISC-V架构目前更多应用在一些固定场景,比如IoT设备等,但它对于通用生态的支持,比如PC、服务器领域,需要更加多的资源投入和研发支持。”周杰告诉第一财经。
此外,也有部分企业自研指令集。龙芯中科(688047.SH)2023年在MIPS架构的基础上,宣布独立研发出具有完全自主产权的Loong Arch架构,申威基于Alpha架构研发出SW64架构。
“生态是一个很重要的问题,X86的生态无疑是最成熟的,Arm架构生态也慢慢变得成熟。”周杰表示,“自研架构的生态相比X86和Arm架构生态,会有一定的差距。若需要支持更通用的生态,整个产业链上下游就需要很多投入,比如各个软件厂商需要去适配自研架构,并进行有关软件优化。”
国产CPU厂商分为三大流派:一是自研架构,如前文所述的龙芯和申威;二是使用Arm架构,如中国长城(000066.SZ)子公司飞腾、华为海思;三是使用X86架构,上海兆芯和海光信息(688041.SH)均使用X86架构。
与GPU相比,国内CPU的发展则更为成熟。根据头豹研究院数据,2022年中国CPU国产化率为30%-40%。同时,中国CPU国产化率还在不断的提高,在最近的运营商集采中,国产CPU比例接近70%。
随着信创的持续推进,国产CPU或将获得较大的增长空间。Canalys多个方面数据显示,2023年中国政府及教育部门的PC采购量达到272万台,占到全国出货量的6%。2024年3月,中央政府采购网发布了重要的公告称,在采购计算机时应当将CPU、操作系统符合安全可靠测评要求纳入采购需求。Canalys认为,上述六家都属于符合该公告中国产CPU条件的品牌。
“产业正在努力推进先进制造工艺和上游EDA工具发展,这些都对芯片产品的竞争力产生特别大的影响。”周杰称,“结合国内目前的产业现状,设计出一款芯片问题不大,关键是设计出来之后,一是怎么生产,二是如何建立一个好的生态,帮助开发者和终端用户比较好地用起来,这一点特别的重要,也是公司核心能力的体现。”
与CPU相比,GPU的逻辑运算单元较少,单个运算单元(ALU)解决能力更弱,但可以在一定程度上完成多个ALU并行计算。同样运行3000次的简单运算,CPU由于串行计算,需要3000个时钟周期,而配有3000个ALU的GPU运行只需要1个时钟周期。
不过,GPU处理并行计算并不是作为一个独立的计算平台,而是与CPU通过PCIe总线连接在一起来协同工作,可视为CPU的协处理器。
作为计算机的图形处理以及并行计算内核,GPU最基本的功能是图形显示和分担CPU的计算量,主要可大致分为图形图像渲染计算GPU和运算协作处理器GPGPU(通用计算图形处理器),后者去掉或减弱GPU的图形显示能力,将其余部分全部投入通用计算,实现处理人工智能、专业计算等加速应用。本报告主要讨论的也是后者。
由于GPU拥有数千个ALU,能够并行执行数百万个数学运算,因此GPU与深度学习技术完美契合,使用GPU做辅助计算,能够更快地提高AI的性能。CPU+GPU成为了目前应用最广泛的算力底座。
“GPU的核心竞争力在于架构等因素决定的性能先进性和计算生态壁垒。”华安嘉业相关负责人此前告诉第一财经。
一方面,性能先进性体现在高精度浮点计算能力。训练需要密集的计算得到模型,没有训练,就不可能会有推理。而训练需要更高的精度,一般来说需要float型,如FP32,32位的浮点型来处理数据。
根据调查研究机构TechInsights数据,2023年全球数据中心GPU总出货量达到了385万颗,相比2022年的267万颗增长了44.2%。其中,以98%的市场占有率稳居第一,出货量达376万块,销售额同比增长超42%。
众所周知,英伟达凭借先发优势,以及大幅度降低开发门槛的CUDA架构,稳稳圈住了大批用户,不仅使GPU在通用计算中慢慢的变成为主角,也成就了自身的护城河。
CUDA 架构不用再像过去GPU架构那样将通用计算映射到图形API(应用程序编程接口)中,大幅度的降低了CUDA 的开发门槛。因此,CUDA推出后发展迅速,大范围的应用于石油勘测、天文计算、流体力学模拟、分子动力学仿真、生物计算、图像处理、音视频编解码等领域。
这为英伟达拿下GPU过半市场占有率奠定了基础。此后,英伟达通用计算架构持续升级迭代,2010年发布Fermi架构,2012年发布Kepler架构,GPU在通用计算中慢慢的变成为主角。
AI 芯片应用生态非长期研发和迭代更新不能解决。英伟达早在CUDA问世之初就开始生态建设,AMD和Intel也推出了自研生态ROCm和one API,但CUDA凭借先发优势早已站稳脚跟。为解决应用问题,AMD和Intel通过工具将CUDA代码转换成自己的编程模型,以此来实现针对 CUDA 环境的代码编译。
但中信证券表示,由于CUDA的闭源特性,以及快速的更新,后来者很难通过指令翻译等方式完美兼容,即使部分兼容也会有较大的性能损失,导致在性价比上持续落后英伟达。同时,CUDA毕竟是英伟达的专属软件栈,包含了许多英伟达GPU硬件的专有特性,这部分在其他厂商的芯片上并不能得到体现。
这正是国内厂商面临的困境。2024年初,英伟达宣布禁止在其他GPU上通过转译层运行CUDA软件的消息引起业内广泛讨论。“在工具链层面兼容CUDA的GPU厂商会受一定的影响,但影响本身在技术层面还是很复杂的。英伟达其实发出了一个非常强烈的信号,就是他正在扎紧自己生态的篱笆。”某GPU业内人士对第一财经表示。
华为可谓国内GPU产业高质量发展的引领者,近年来华为在昇腾AI系列芯片迭代、自主可控产能提升方面取得了长足进展。根据《2023智能算力发展白皮书》,假设到2025年我国智能算力规模至少要达到900EFlops,预计昇腾市占率将达到30%,平均价格为12万元,开源证券保守估计昇腾910B累计市场空间为1080亿元。
(688041.SH)的DCU也属于GPU的一种,其DCU协处理器全面兼容ROCm GPU计算生态。据悉,ROCm和CUDA在生态、编程环境等方面高度相似,CUDA用户都能够以较低代价快速迁移至ROCm平台,因此ROCm也被称为“类CUDA”,主要部署在服务器集群或,为应用程序提供高性能、高能效比的算力,支撑高复杂度和高吞吐量的数据处理任务。
根据官网描述,寒武纪(688256.SH)首款云端训练芯片思元290实现了INT8算力512TOPS,而在研的第五代智能处理器微架构对推荐系统和大语言模型训练推理场景进行了重点优化,在编程灵活性、能效、功耗、面积等方面大幅度的提高了产品竞争力。
半导体初创企业中,燧原科技、芯瞳、芯动科技、摩尔线程、天数智芯、壁仞科技等均已陆续推出产品。据悉,2020年开始,国内GPU行业融资环境有较大改善,初创公司遍地开花。
摩尔线年,是一家以全功能GPU芯片设计为主的集成电路企业。该公司推出了全面对标CUDA的MUSA架构,用户能将CUDA写的应用程序通过摩尔线程的编译器重新编译成MUSA的应用,以此来实现接近零成本迁移,同时也可以通过标准编程语言开发新的应用。“MUSA本身是一套独立自主的生态,同时也是个开放的、能吸收现有生态的全新生态。”摩尔线程CTO张钰勃告诉第一财经。
燧原科技专注于领域云端和边缘算力产品,致力于为通用AI打造算力底座,提供原始创新、具备自主知识产权的AI加速卡、系统集群和软硬件解决方案。
国产算力芯片如果从“能用”变成“好用”,仍需投入大量研发成本和时间。华安嘉业上述负责人对第一财经表示,国产GPU在起步阶段兼容现有生态更容易发展,但长期还是要摆脱兼容思路,发展自有核心技术。
“我们经常讲兼容,但兼容不代表要和英伟达做得完全一样,而是说你做的东西可以去承载所有技术的生态,可以把英伟达的生态吸收过来、直接利用。但要做功能全面对标英伟达的GPU芯片难度很大,目前大多数厂商采取的策略是仅实现英伟达GPU人工智能加速的部分功能。”张钰勃表示。
“独立自主和开放兼容并不矛盾。我们一方面能够独立自主发展实现可控,一方面也可以开放兼容现有CUDA优势。”张钰勃告诉第一财经,“只有硬件功能完全对标,才可以有明显效果地地把CUDA生态的应用吸收过来。假如没有办法吸收现有生态,另建一个新生态,真要建成也是十几二十年的事。”
客户迁移成本是推动国产GPU厂商加速生态建设的主要的因素之一。目前,国内也存在一些坚持“难而正确”理念的厂商,选择了自建生态、不兼容的道路,燧原科技就是其一。
对于这类算力厂商来说,客户迁移成本始终存在,因此就需要寻找志同道合的客户。“燧原希望与产业合作伙伴一起构建一个开放开源的生态系统,我们的客户也愿意跟那些有长期主义的合作伙伴一起去打磨产品。”燧原科技首席生态官李星宇此前告诉第一财经。
“技术生态的范式转移,给像燧原这样的初创公司自建生态带来一个新的契机。”李星宇认为,随着大模型时代的到来,模型的架构底座趋向于一致,即Transformer,这收敛了对于硬件的需求,让硬件设计的方向更加聚焦和明确,减轻了碎片化程度;与此同时,越来越流行的开源框架和编程语言,让芯片公司有更好的基础去适配不同模型,让开发者更容易在开发工具层面去适配不同的硬件。
“客户的迁移成本取决于很多因素,但整体的趋势是越来越便捷。”李星宇表示,“比如说我们兼容PyTorch的主流算子,采用这些主流算子的模型理论上可以直接迁移而不需要改源代码。同时未来我们也会支持更多主流的开源编程语言,让客户开发新的模型时,也会变得更容易。”
虽然目前国内有多家AI芯片厂商选择自建生态,但并未形成统一生态,各家正处于跑马圈地、各自发展的时期。诚然,在技术发展的早期和技术快速迭代的时期,很难制定一套统一的标准。正如海外GPU发展的早期,行业存在四十多家企业,但大浪淘沙后,仅留存几家企业做大做强。在快速变化的技术趋势面前,任何一个人都有自己不同的理解,让市场去选择,让客户去选择,可能是一个更好的方式。
“技术的提升最终是靠市场和客户的需求牵引,中国真正的优点是拥有全球最大的市场,以及众多开发者愿意去拥抱新技术。”李星宇表示。
FPGA,即现场可编程门阵列,是在硅片上预先设计实现的具有可编程特性的集成电路,用户在使用的过程中能够最终靠软件重新配置芯片内部的资源实现不同功能,因此具有优越的灵活性,能够很好的满足不同场景的应用需求。
相比CPU,FPGA具备两大性能优势,一是优越的灵活性,二是低时延处理。
FPGA 芯片类似于集成电路中的积木,用户可根据各自的需求和想法,将其拼搭成不同的功能、特性的电路结构,以满足多种场景的应用需求。GPU在设计完成后无法改动硬件资源,而 FPGA根据特定应用对硬件进行编程,更具灵活性。机器学习使用多条指令平行处理单一数据,FPGA 的定制化能力更能满足精确度较低、分散、非常规深度神经网络计算需求。
时延方面,CPU为了能够更好的保证最大限度的通用性和复杂任务的处理,引入了指令集和对应的取指译码操作,而FPGA在设计时就等于预先指定了指令,无需像CPU一样进行Fetch(取指)-Decode(译码),可以立即进入相当于CPU的Excecute(执行)的环节。同时,FPGA采用高并行架构,数十万个 CLB 可以同步执行。现代CPU虽然有多个ALU(核心计算单元)以完成并行计算,但在并行度上仍然不如有数十万个CLB的FPGA。
此外,对于现代CPU为提升并行度增加的模块,比如BranchPrediction(分支预测),Out-of-orderExecution(乱序执行),调度(Scheduler),FPGA都不需要,因此FPGA完成指令所花费的时钟周期要远小于CPU。
在高并行计算中,FPGA的时延优势更突出。比如,在完成雷达波束赋形这一高并行算法时,使用XilinxVirtex7(FPGA)时延仅需3.3ms,而且时钟频率仅需125MHz,系统功耗仅为75W,而使用ARMA9(CPU)在667MHz的时钟频率下依然需要250ms才能完成,而且系统功耗高至1400W。
低延时与灵活性优势造就了FPGA广阔的下游市场。东兴证券研报称,2022年FPGA全球市场空间超80亿美元,其中大部分需求来自于电信、工业、&AI、国防&航空航天四大领域,2028年将增长至接近200亿美元,2022年~2028年CAGR超15%,由中国市场引领增长。
据Marketsandmarkets数据,2022年中国FPGA市场规模约为16亿美元,随着AI&数据中心、电信、国防&航空航天、汽车市场对FPGA的需求日渐增长,预计2028年规模约为45亿美元,2022年~2028年复合增速18%,高于全球其他地区。
FPGA在数据中心&AI领域是重要的计算芯片类别,可当作异构计算的关键一环,起到加速计算的作用。根据的测算,2028年FPGA在全球AI领域应用的市场规模将达到35亿美元,占比逾15%,2022年~2028年CAGR为18%,是增速最快的细分领域。
具体来看,FPGA 在数据中心&AI 的增长驱动力大多数来源于于低时延推理的需求。
FPGA的高并行、低时延、低功耗的特性很适合需要实时推理的场景。例如,YOLO(Youonlylookonce)是目前最重要的实时目标检测算法,使用赛灵思(Xilinx)的ZynqUltraScale+MPSoC(某个FPGA方案),可以在约18ms的时延完成YOLOv5(第五代YOLO算法),而使用Zynq7100(另一种FPGA方案)则可实现压缩后的YOLOv7模型(第七代YOLO算法),在30帧率下实现小于33ms(15ms)的低时延推理。此外,FPGA在数据中心常用于计算加速,比如云计算的加速实例、金融的高频/低时延的交易系统处理。FPGA还广泛应用于数据中心的互联、存储控制系统。
目前,全球FPGA 市场按制程可大致分为三类:90nm以上,大多数都用在高可靠的航天应用;20-90 nm,大多数都用在国防、航空航天、汽车、消费电子等领域;≤16nm以下。其中,14/16nm FPGA 主要使用在在电信领域的基带单元和有线网络,汽车领域的激光雷达,工业中的安防和仪器仪表等,7nm FPGA 则主要使用在在数据中心加速计算。
制程竞争是贯穿FPGA发展历史的竞争主线,制程领先后则具备先发优势,占据更多市场占有率和盈利空间,是FPGA市场占有率最直接的决定因素。因此FPGA市场高度集中,龙头赛灵思(Xilinx)占据过半份额,前四名玩家合计份额超90%。在数据中心和AI加速计算领域,赛灵思占据绝对性份额。
而国内厂商在应用于数据中心&AI领域的高端FPGA市场仍处在从0到1阶段。国内FPGA厂商不仅需要硬件架构的创新,还需要EDA软件和自研IP能力的提升,以及更完善的国产应用生态培养。
ASIC芯片的架构并不固定,既有较为简单的网卡芯片,用于控制网络流量,满足防火墙需求等,也有类似于谷歌TPU等的顶尖AI芯片。只要是为了某一类算法或某一类客户的真实需求而去专门设计的芯片,都可以称之为ASIC。
相比能够运行各种应用程序的GPU和能够在制造后重新编程以执行不同任务的FPGA,ASIC需要定制设计,灵活性较差。但由于ASIC是为了某一类需求和算法而设计的芯片,因此其在特定应用中表现出色,性能明显优于其他芯片。
2023年,数据中心定制加速计算芯片(ASIC)规模约66亿美元,在AI加速计算芯片市场占有率较低,为16%。业内预计,AI ASIC芯片成长空间广阔,未来增速有望超过通用加速计算芯片。Marvell称,2028年定制芯片规模有望超400亿美元,CAGR达45%,而通用加速计算芯片2028年预计达到1716亿美元市场规模,CAGR为32%。
目前,ASIC芯片根据运算类型大致上可以分为TPU、DPU和NPU,分别对应不同的基础计算功能。
TPU即为谷歌发明的AI处理器,主要支持张量计算,DPU则是用于数据中心内部的加速计算,NPU则是对应了上一轮AI热潮中的CNN神经卷积算法,后被大量集成进了边缘设备的处理芯片中。
TPU,即张量处理单元,属于ASIC的一种,是谷歌专门为加速深层神经网络运算能力而研发的一款芯片,为机器学习领域而定制。
与传统CPU、GPU架构不同,TPU的MXU设计采用了脉动阵列(systolic array)架构,数据流动呈现出周期性的脉冲模式,类似于心脏跳动的供血方式。
CPU与GPU在每次运算中需要从多个寄存器中进行存取;而TPU的脉动阵列将多个ALU串联在一起,复用从一个寄存器中读取的结果。
相比于CPU、GPU,TPU在机器学习任务中因高能效脱颖而出,其中TPU v1在神经网络性能上最大可达同时期CPU的71倍、GPU的2.7倍。
华福认为,与英伟达GPU相比,在算力上,谷歌TPU目前暂时落后一代,在性能功耗比上谷歌优势显著。
根据Capvision,谷歌TPU70%-80%的算力用于内部业务场景使用,剩余20%-30%以租赁方式供外部使用。随着TPUv4于2021年推出和大型语言模型的出现,谷歌芯片业务的规模明显地增加,2023年TPU出货量已突破200万颗量级。
DPU,即数据处理器,具备强大网络解决能力,以及安全、存储与网络卸载功能,可释放CPU算力,能完成CPU所不擅长的网络协议处理、数据加解密、数据压缩等数据处理任务,并对各类资源分别管理、扩容、调度,实现数据中心降本提效。即处理“CPU做不好,GPU做不了”的任务。
在AI时代,智算中心需要处理的数据量井喷,DPU能释放智算中心的有效算力,能够解决基础设施的降本增效问题,重要性和渗透率正逐渐提升。中国信通院预计,未来全球DPU市场规模仍将保持30%的复合增速,2025年全球DPU市场规模将接近150亿美元。
“DPU这个概念是四年前被英伟达炒作起来的。在收购了以色列公司Mellanox后,英伟达一跃成为业界首个既有CPU、GPU,也有DPU的数据中心完整解决方案的供应商。”芯启源创办人卢笙在接受第一财经专访时表示,芯启源是国内最早一批从事DPU研发的厂商之一,可以追溯到2018年,当时还称为智能网卡Smartnic。
“过去承载网络传输功能的是传统网卡,后来诞生了智能网卡,四年前逐步演化为DPU。” 专注于智能计算芯片研发设计的中科驭数(北京)科技有限公司高级副总裁张宇告诉第一财经。
2020年,英伟达发布的DPU产品战略中将其定位为数据中心继CPU和GPU之后的“第三颗主力芯片”,自此引爆了DPU概念。
如今,DPU已成为数据中心内新兴的专用处理器,专门设计用于加速数据中心中的安全、网络和存储任务,针对高带宽、低延迟的数据密集型计算场景提供动力。DPU的核心作用是接管原本由CPU处理的网络、存储、安全和管理等任务,从而释放CPU资源,并加强数据安全与隐私保护。
“英伟达所做的智算中心的方案,其实都是三U一体的。英伟达三年前的DGX A100服务器、后面的DGX GH200等一系列,都是包含CPU、GPU和DPU的。当然DPU里还有像RDMA这种智能网卡,这些其实都可以归为DPU,它们本质上是一个东西。所以从这个方面看,当前行业内引领的,或者说大家公认的方向,是在智算中心里CPU加GPU加DPU三者协同。”张宇表示,通用数据中心的方案则更多是CPU加存储加网络,一些云原生场景里对低时延高吞吐的数据网络处理也是刚需,智算场景对网络处理性能要求更高。
“如果把CPU比喻为大脑,用于整体控制,那么GPU则更像是肌肉,用于提供坚实的充沛的并行计算的算力,而DPU则更像是血管和神经,将GPU需要算的数据,通过DPU运输到服务器中,完成控制指令交换和协议转换。”张宇称。
“多PU的配合其实就是整体计算架构的升级,从过去以通用CPU为主的架构走向加速器为主的计算架构,通过CPU、GPU、DPU、NPU等配合来提升整体计算方案的性价比。”张宇表示,“目前在技术方面,DPU已经逐步趋向成熟,边界也很成熟。网络安全加解密、零信任、网络卸载,已经基本上成为了DPU稳定承载的功能。”
作为CPU的卸载引擎,DPU最直接的作用是接管网络虚拟化、硬件资源池化等基础设施层服务,释放CPU的算力到上层应用,因此能够有效释放智算中心的算力,提升能效比。
“英伟达此前承认其上一代生成式AI服务器的算力芯片的效率只有设计能力40%,我们测下来只有30%多,这在某种程度上预示着大部分算力是被闲置的,究其问题大多是在集群间等待计算产生的中间变量完成数据同步,网络通路的能力限制了算力底座的上限,而这恰恰是DPU的真正价值所在。”卢笙表示,这使得DPU又被推到风口浪尖。
在数据量爆炸的AI时代,DPU不仅仅可以协助构建兼具低时延、大带宽、高速数据通路的新型算力底座,还能够安全高效地调度、管理、联通这些分布式CPU、GPU资源,从而释放智算中心的有效算力。因此,DPU的部署能够减少数据中心的一次性capex(资本性支出)投入。Cisco(思科)的多个方面数据显示,通过虚拟化技术,公司能够减少高达40%的服务器数量,同时提高资源利用率。
另一方面,DPU通过专用硬件加速网络、安全和存储任务,提高了数据中心的能效。
卢笙介绍,以中国移动在浙江省SD-WAN这一个应用场景为例,“通过芯启源DPU网卡打造的软硬件一体化解决方案,实现了业务卸载,相较于传统纯软件SD-WAN网络方案,单机效率提升了6-8倍,整体项目也节约了80%的服务器部署投入和每年的软件费用等,极大降低了CAPEX投入;此外,由于机器部署减少,数据中心的能耗降低,经测算每年能节约超300万度电,同时极大降低了数据中心的经营成本。”
成本方面,第一财经了解到,DPU的研发和生产所带来的成本相比来说较高,特别是使用先进工艺时,因而价格较高,但由于部署DPU解决方案,既能够减少服务器设备数量,也能在后续运行计算过程中节省能耗,因此整体系统成本上仍然具备一定性价比,但也要根据具体场景和应用情况来讨论。
专注于硬科技领域早期投资的创投机构中科创星有关人员告诉第一财经,DPU作为软硬件协同的虚拟化架构,需要与CPU中运行的虚拟化软件栈进行相对有效对接,同时,DPU的硬件设计必须考虑到与现有系统的兼容性和集成性;其次,DPU的架构和接口尚未形成统一标准,不同厂商的产品存在一定的差异,这给用户在使用、维护和升级时带来挑战;此外,软件生态尚未成熟,缺乏完善的开发工具、驱动程序和操作系统支持,“但目前已经有公司在做”。
卢笙表示,DPU需要专用的高效指令集,这也是其核心竞争力所在,剩下三分之二的工作则是围绕指令集打造生态,生态建设是DPU行业的核心壁垒,生态建设的成熟度决定了产品商业化落地的速度。
整体来看,DPU产业目前仍以国外企业为主导,三大巨头英伟达、博通和英特尔的份额占比较高,、这些科技公司也在跟进。国内方面,、阿里等大企业也在研发专用的DPU,初创企业如芯启源、中科驭数、大禹智芯等也取得了相应的成果或进步。
“国内外的DPU技术发展处于同一阶段,但国外企业积累更深厚一些。在我看来,DPU产业其实已经逐步走向成熟和快速落地的阶段。国外可能比国内可能走得更早更快一点。”张宇表示。
在DPU商业化落地方面,目前国内仅有华为、阿里、中兴等大型云厂商,以及芯启源、中科驭数等少数DPU新势力已实现商用。信通院预计,2025年我国数据中心DPU渗透率可达到12.7%。
张宇认为,DPU走到当前阶段,更重要是与云在IaaS这一层的深层次地融合,尤其是如何给客户提供全面、便捷、透明的纯软件的IaaS方案,使他们可以平滑地迁移到用DPU来支撑这种高能效比的云方案。
“这块的迁移需要行业的共同努力,并且需要持续很久,甚至要以年来计。”张宇称,“云就走得比较快,他们研发实力比较强,已完成了IaaS on DPU的转换,但对国内大部分企业来说,步伐不会迈得太大,可能会从最痛的几个点先透明地用起来,比如OVS卸载、网络升级等。”
“DPU的商业化不仅仅依靠于传统数据中心的IaaS领域,也包括、高性能存储、集群通信等诸多的行业和领域。”卢笙表示,芯启源多年来深耕“DPU for Security”方向,将DPU应用于诸如防火墙、安全网关等产品,目前已进入深信服网安产品线,成为标配扩展卡,解决了诸如Intel CPU大象流解决能力不足等业界难题。
“从目前的产业高质量发展趋势来看,如果技术发展符合预期,大概2025-2027年会有一个爆发。”上述中科创星有关人员表示,原因主要在于,随着数字化的经济、AI和产业的发展,服务器市场会迎来一个增长,尤其是在金融、政府和电力用户领域,不仅需要大量的DPU来处理数据,提升计算效率,还需要DPU发挥安全性的优势。
“DPU芯片确实已经大规模应用了,目前的增速在每年20%-30%。但DPU的行业特质就是需要保持稳定性,需要稳定在集群上运行几个月再扩集群。”张宇表示,更重要的一点,结合国内行业的发展来看,这两三年会是最重要的时期,是每家DPU厂商都需要把握好的关键时间窗口。
“DPU还不是一个标准化的产品,商业化上量的过程需要结合市场的需求和不同应用场景的深入打磨,需要上下游厂家协同,从几百片小规模试点到上万片的大规模部署需要积跬步至千里。”卢笙表示,DPU的商业化需要全行业伙伴一起努力,加强彼此的生态互信与合作,在国产化CPU+GPU+DPU的3U一体商业化之路携手前行。
“好消息是中国厂商和国际厂商都在同一个起跑线上。”卢笙表示,随着需求量开始上涨,中国市场本身体量很大,同时国家大力推进,这都给中国厂商发展提供了很好的土壤。
卢笙认为,中国厂商在DPU领域能够脱颖而出的最大优点是中国的应用场景走在世界前列,比如随处可见的移动支付等。
国内DPU产业亦蓄势待发,除了云厂商外,芯启源、中科驭数、星云智联、大禹智芯等企业纷纷入局。
NPU,即神经网络处理单元,用于高效执行神经网络的计算,通常具有优化的硬件架构,如向量处理单元、矩阵乘法单元、卷积单元和激活函数单元等,能够在硬件级别上执行大规模矩阵运算和卷积运算,以提高神经网络计算效率。
当前各类AI算法主要利用深度神经网络等算法模拟人类神经元和突触,NPU可以在一定程度上完成更高效率、更低能耗处理人工神经网络、随机森林等机器学习算法和深度学习模型。如今,多家手机生产厂商已搭载NPU,AIPC也将通过“CPU+NPU+GPU”打造本地混合计算。
“相比于CPU和GPU,NPU的优点是高效能、低功耗、易于编程、降低了开发门槛,同时支持多种语言和框架方便开发者进行模型开发和部署。”IDC中国分析师杜昀龙告诉第一财经。
NPU采用“数据驱动并行计算”的架构,在电路层模拟人类神经元和突触,特别擅长处理视频、图像类的海量多媒体数据。区别于CPU、GPU所遵循的冯诺依曼架构,NPU可以通过突触权重实现存储计算一体化,提高运行效率,因此比GPU更擅长推理。且NPU芯片设计逻辑更简单,在处理推理工作负载时具有非常明显的能耗节约优势。
杜昀龙认为,缺少像英伟达GPU那样完善的生态环境是目前NPU渗透率提升最大的瓶颈。据IDC数据,2022年中国实现数据中心计算加速仍以GPU为主,NPU占比仅12%,但较以往明显增长。
如今,大模型已进入轻量化时代,端侧AI应用正加速落地,商汤(曾在2023年年报中表示,2024年将是端侧大模型应用的爆发之年。商汤联合发起人、首席科学家王晓刚解释称,成本、数据传输延迟、与隐私等几个重要问题,都能够最终靠端侧AI或云端结合来解决。
与云侧不同的是,端侧对于功耗更加敏感,对低功耗芯片的需求更明显。因此,随着AI应用场景陆续落地,NPU易开发、高效能、低功耗等优势逐渐突显。业内一致认为,在大算力需求爆发下,云侧的算力需求将传递至端侧。目前,实现智能终端算力的最常用方式是在SoC芯片中内置NPU模块。
“NPU是专门为AI应用而设计的芯片,目前看NPU通常用于边缘侧和端侧场景更多,比如人脸识别、人脸解锁、影像处理等。”杜昀龙表示。
“大模型部署到端侧时,对芯片的算力、存储、数据传输都有明确要求,要求这些芯片能更好地支持Transformer、Diffusion等架构。”王晓刚对第一财经表示。
相比于在云端用GPU部署Transformer大模型,在边缘侧、端侧部署Transformer的最大挑战来自于功耗。因此在端侧和边缘侧,GPU并非最合适的架构。
“Transformer是现在所有大模型的基础,它本身的基础架构也是固定的,在这种基础最原子层架构固定的情况下,DSA(专用领域架构处理器)架构是比GPU更优的架构。对于AI推理芯片,尤其是在边缘侧、端侧部署的推理芯片来说,DSA架构芯片的运算效率、能量消耗优于GPU。”国内AI算力公司爱芯元智创始人、董事长仇肖莘表示。
NPU就是基于DSA领域专用架构技术的处理器,同时比GPU更擅长推理,且芯片设计逻辑更简单,具有能耗节约优势,因此NPU可以作为在AI计算效率和功耗之间的平衡方案。
“NPU跟CPU、GPU一样,都是整个计算架构的一部分,是计算架构里边异构的处理器,用以实现不同的功能。GPU原来是专门为图形渲染做的,更像是张量计算使用的一个处理器,而NPU更像是一个原生的AI计算处理器,CPU则是另外一个处理器,这三个处理器加起来构成了AI的一个计算底座。”仇肖莘在接受第一财经专访时表示,“实际上,NPU在GPU的基础上更近了一步,它的灵活性不如GPU,但它的好处是能效比非常高,更适合边缘侧、端侧。”
NPU适合广泛部署在端侧、边缘侧的重要原因,也在于端侧与边缘侧需要性价比,需要在成本可控的前提下提供AI能力。仇肖莘认为,如何以低成本的NPU去实现AI的价值,是实现AI普惠的关键。
“现在无人驾驶很火热,但一个显而易见的问题是,到底有多少车能够用得起这个功能?如果一套解决方案花费在1万元人民币,可能10万元以下的车就用不起;若能够把它的整个成本降到5000元以下,或者3000元,占整车成本的比例就会低很多,普及也会更快一些。”仇肖莘称,现在有一些高配置手机和新出的AIPC已经搭载了NPU,但价格确实比较贵,要把NPU的成本降下来,需要达成规模效应,现在量没有起来确实很难降价。
仇肖莘认为,从今年开始,NPU的需求,或者说端侧AI芯片的需求会是一个快速上涨的趋势。“从我们自己客户的需求来看,他们的预测都会比原来更高。”
目前,国内芯片厂商正奋力自研NPU,以迎接AI浪潮。以阿里平头哥为代表的芯片公司已推出面向数据中心AI应用的人工智能推理芯片,其NPU含光800已成功应用在数据中心、边缘服务器等场景。
NPU IP方面,芯原股份(688521.SH)2016年通过对图芯美国的收购,获得了图形处理器(GPU)IP,在此基础上自主开发出了NPU IP。此前告诉第一财经,目前,在AIoT领域,公司用于人工智能的神经网络处理器IP已经被50多家客户的100多款芯片所采用,被用在物联网、可穿戴设备、安防监控、服务器、汽车电子等10个应用领域。
本报告所讨论的CPU、GPU、FPGA、ASIC芯片,提供了当前阶段的主要AI算力。但AI大算力底座的构成并不局限于上述芯片,还包括存储器等存力芯片、接口芯片等运力芯片、服务器等硬件集成、交换机等硬件设备、数据中心运维、通信网络传输等,总之,AI算力发展需要全产业链的共同进步。
第一财经在与产业人士、机构投资的人、第三方分析机构等交流探讨上述AI芯片的发展现状过程中,发现了部分行业趋势,主要有以下几点:
异构计算趋势下,GPU仍是当前除CPU外商用最广泛的AI芯片。这主要是由于CPU难以高效率地胜任多个复杂的并行计算任务,需要GPU等AI芯片辅助完成部分任务。GPU作为CPU的协处理器,至今已能够在性能、成本等方面具备优势,更重要的是,英伟达打造的CUDA生态,让其GPU产品拥有较为完善的生态环境,这些都推动了GPU的商业化。
相比GPU,FPGA、ASIC在性能和效率上更具优势,但成本更高,尤其是高端FPGA更依赖于先进制程,因此广泛商用仍需一定时日。
值得注意的是,CPU和GPU都属于冯诺依曼架构,计算和存储功能分别由芯片和存储器完成,数据从存储器中获取,处理完毕后再回到存储器,从处理单元外的存储器提取数据所需的时间往往是运算时间的成百上千倍,即存在“存储墙”限制。而FPGA和ASIC却没有这样的限制。
因此,GPU不适合用于AI推理。当前动辄千亿参数的AI大模型需要千卡、万卡集群算力进行训练,而在后续的AI大模型应用阶段,AI推理将成主战场,FPGA和ASIC或许能获得更加多市场。
FPGA、ASIC类似于GPU的大规模商用仍待时日,在此期间,配合GPU的广泛应用,存力与运力也在快速发展。
2024年初,搭载在高端AI服务器配合GPU的HBM(High Band width Memory,高带宽存储器)爆火。HBM拥有超高带宽,主要缘于其将原本在PCB板上的DDR内存颗粒和GPU芯片同时集成到SiP封装中,使内存更加靠近GPU,即“近存计算”。随着存算技术的发展,未来存内计算、存内逻辑,即“存算一体”,有望成为AI时代的新选择。
存算一体是在存储器中嵌入计算能力,以新的运算架构进行二维和三维矩阵乘法/加法运算。其中存内计算的计算操作由位于存储芯片内部的独立计算单元完成,存储和计算可以是模拟的也可以是数字的,通常用于算法固定的场景算法计算;存内逻辑通过在内部存储中添加计算逻辑,直接在内部存储执行数据计算,这种架构数据传输路径最短,同时能满足大模型的计算精度要求。
此外,AI服务器内存和硬盘也在迭代升级,已开始搭配最先进的DDR5、LPDDR5、SSD等存储。
摩尔定律已逼近物理极限,先进封装成为系统级解决方案,战略地位将不断凸显。
AI芯片就融合了多种先进封装技术,HBM应用TSV堆叠技术获得超高带宽,而为了将HBM和GPU集成,CoWoS封装技术被深度开发。CoWoS是英伟达选择的主流封装技术,能够以合理的成本提供最高的互连密度和最大的封装尺寸。人工智能加速芯片可能用到的Chiplet技术也依赖于先进封装。
产业链中,我国封测环节发展已较为成熟,长电科技(600584.SH)、通富微电(002156.SZ)等企业近年来不断加深对先进封装的布局。
“芯片行业有一个很明显的特点,它会有一个体量巨大的老大和一个还活得不错的老二,剩下的全都会死。”某AI算法上市公司高管此前告诉第一财经,“因为芯片的主要原材料是沙子,难的是工艺。换句话说,流水线一旦启动,造一颗芯片和造100万颗芯片的价格不会相差很多,所以出货量大的企业才能盈利。很多芯片勇于探索商业模式的公司的经营状况不好,这是符合市场规律的,他们要在残酷的市场之间的竞争中最少变成老二。”
因此,先发优势是芯片厂商构筑核心壁垒的重要的条件之一,在某个细分领域站稳脚跟后迭代下一代产品,凭借生态和口碑建立起用户习惯,后来者分羹的难度会慢慢的大,英伟达就是最好的案例。
近年我国支持自主可控的氛围浓厚,无论是政策端还是产业下游客户,都在积极努力配合半导体产业链上游和中游,国内厂商亟待借力政策和产业东风,加速构筑自身护城河。
正如英伟达凭借CUDA占据全球GPU的绝对份额,凭借X86的成熟生态占据服务器CPU的绝对份额,国内AI芯片厂商也在加速自研和生态构建之路,如兼容CUDA的、摩尔线程等,自研架构搭建生态的华为、燧原科技等。
其中,华为正在通过CANN和AscendCL构建国产GPU软件生态。CANN是华为为AI场景设计的异构计算架构,旨在为开发者提供高效、灵活且易于使用的工具和服务,以便在华为昇腾AI硬件上开发和部署各种AI应用。CANN对上支持多种AI框架,对下服务AI处理器与编程,这在某种程度上预示着无论使用哪种AI框架,CANN都能提供支持。
软件生态建设非一日之功。随着政策支持下国产硬件数量的增加,软件开发商将更积极地为这一些平台开发应用,从而丰富软件生态,形成硬件发展与促进软件生态的良性循环。
整体来看,我国AI芯片产业高质量发展仍将面临多重阻力,一方面,上游EDA工具、IP、晶圆代工厂的制程进度等,给AI芯片设计厂商带来制约;另一方面,国外企业凭借先发优势、技术优势、生态配套及用户习惯已占据大部分市场占有率,国内厂商在打开下游市场时面临诸多挑战,在产品研制上也需要仔细考虑兼容路径。
不过,中国市场规模庞大,技术与生态百花齐放,且政策扶持力度大,产业链配合积极度高,未来随着先进封装、存算一体等技术的发展,推理芯片的大规模运用,中国AI芯片厂商有望走出自己的发展壮大之路。
上一篇:第五代AMD EPYC 9755处理器深度测试:128核Zen 5无惧计算挑战 树立新标杆