最近,市场关注的两家ASIC企业都发布了自家的财报。
博通2025财年第一季度财报显示,营收149.16亿美元,同比增长25%,净利润55.03亿美元,同比增长315%。其中,第一季度与AI有关的收入同比增长77%至41亿美元。
Marvell预计第一财季销售额约为18.8亿美元,同比增长27%。其中,AI业务收入达7亿美元左右,主要是亚马逊等客户定制ASIC等产品需求增长的带动。
01ASIC,越发丰富
今年以来,大模型的更迭越发的激烈。DeepSeek研究团队再放大招,公开NSA算法。同日,马斯克发布Grok 3模型,号称拳打DeepSeek脚踢OpenAI。
DeepSeep之风正盛,将全球科技产业的重心从训练推向推理阶段。由于DeepSeek是MOE模型,能够实现更低的激活比。算力、内存、互联原有平衡发生剧变,新算力架构机会再次进入同一起跑线。
这种条件下,定制化芯片ASIC似乎越来越适合AI时代。
ASIC芯片的主要根据运算类型分为了TPU、DPU和NPU芯片,分别对应了不同的基础计算功能,也有不同的优势。
TPU
先来看TPU。TPU的核心是矩阵乘法单元,它采用脉动阵列架构,这意味着数据以类似心脏跳动的方式在芯片内流动。这种架构允许高度并行的乘法和加法操作,使得TPU能够在每个时钟周期内处理大量的矩阵运算。
如果把TPU比作一个工厂,这个工厂的任务是把两堆数字(矩阵)相乘。每个工人(脉动阵列的小格子)只需要做简单的乘法和加法,然后把结果传给下一个工人。这样,整个工厂就能高效地完成任务,而且速度比普通的工厂(比如CPU或GPU)快很多。
TPU的优势是能够高效处理大规模矩阵运算,支持神经网络的训练和推理任务。所以,更加适合用在数据中心的AI训练和推理任务,如自然语言处理、计算机视觉和语音识别。
DPU
其次来看DPU。DPU能够处理大量的网络数据包,包括接收、分类、转发和过滤等。它通过硬件加速引擎(如网络处理引擎)来加速网络操作,减少CPU在网络处理上的负载。
DPU就像是一个快递中心,它负责接收包裹(数据),快速分拣,然后把包裹送到正确的地方。它有自己的小助手(加速器),这些小助手很擅长处理特定的任务,比如快速识别包裹的地址或者检查包裹是否完好。这样,DPU就能让整个快递系统(数据中心)运行得更高效。
DPU的优势是可以卸载CPU的部分任务,减少CPU的负担。优化了数据传输路径,从而提高系统的整体效率。所以,它的应用场景是数据中心的网络加速、存储管理、安全处理等。
NPU
再来看NPU。NPU是专门为神经网络计算设计的芯片,采用“数据驱动并行计算”的架构。它能够高效执行大规模矩阵运算,特别是卷积神经网络(CNN)中的卷积操作。
如果把NPU比作一个厨房,这个厨房有很多厨师(计算单元),每个厨师都能同时做自己的菜(处理数据)。比如,一个厨师负责切菜,一个厨师负责炒菜,另一个厨师负责摆盘。这样,整个厨房就能同时处理很多道菜,效率非常高。NPU就是这样,通过并行处理,让神经网络的计算变得更快。
NPU的优势就是执行AI任务时功耗较低,适合边缘设备。并且,专为神经网络设计,适合处理深度学习任务。所以,NPU的应用场景是人脸识别、语音识别、自动驾驶、智能相机等需要进行深度学习任务的领域。
简而言之,TPU适合深度学习、DPU适合数据中心的数据管理、NPU通过并行计算快速完成神经网络任务,适合各种AI应用。
最近,还出现了LPU,一种专门为处理语言任务而设计的芯片。它的推出就是专门针对语言处理优化的架构和指令集,能够更高效地处理文本、语音等数据,从而加速大语言模型的训练和推理过程。
摩根士丹利预测AI ASIC的总可用市场将从2024年的120亿美元增长到2027年的300亿美元,期间英伟达的AI GPU存在强烈的竞争。
现在,在ASIC赛道上的玩家,已经越来越多。
02拥挤的ASIC赛道
3nm ASIC芯片的赛道上挤满了大厂。
亚马逊一直在致力于自研芯片以降低数据中心成本。
2022年,AWS发布了Trainium 1和 Inferentia 2芯片。当时,Trainium1在训练方面表现不是很好,更加适合AI推理工作。
之后,AWS又发布了当前的Trainium 2,采用5nm工艺。单个Trainium 2芯片提供650 TFLOP/s的BF16性能。Trn2实例的能效比同类GPU实例高出25%,Trn2 UltraServer的能效比Trn1实例高三倍。
去年12月,亚马逊宣布要推出全新 Trainium3,采用的是3nm工艺。与上代 Trainium2 相比,计算能力增加2倍,能源效率提升40%,预计2025年底问世。
据了解,在AWS的3nm Trainium项目中,世芯电子(Alchip)和Marvell展开了激烈的竞争。
世芯电子(Alchip)是第一家宣布其3nm设计和生产生态系统准备就绪的ASIC公司,支持台积电的N3E工艺。Marvell则在Trainium 2项目中已经取得了显著进展,并有望继续参与Trainium 3的设计。
当前的竞争焦点在于:后端设计服务和CoWoS产能分配上。看谁能够在Trainium项目争取到更多的份额。
之前我们提到的TPU,以谷歌的TPU最具有代表性。谷歌的TPU系列芯片从v1到最新的Trillium TPU。TPU为Gemini 2.0的训练和推理提供了100%的支持。据谷歌这边说,Trillium 的早期客户AI21 Labs认为是有显著改进的。AI21 Labs首席技术官Barak Lenz表示:“Trillium在规模、速度和成本效益方面的进步非常显著。”现在谷歌的TPU v7正在开发阶段,同样采用的是3nm工艺,预计量产时间是在2026年。
据产业链相关人士透露,谷歌TPU芯片去年的生产量已经达到280万到300万片之间,成为全球第三大数据中心芯片设计厂商。
从合作对象来说,谷歌和博通始终是在深度合作的。谷歌从TPU v1开始,就和博通达成了深度合作,它与博通共同设计了迄今为止已公布的所有TPU,而博通在这方面的营收也因谷歌水涨船高。
微软在ASIC方面也在发力。Maia 200是微软为数据中心和AI任务定制的高性能加速器,同样采用3nm工艺,预计在2026年进入量产阶段,至于现在Maia 100,也是专为在Azure中的大规模AI工作负载而设计。支持大规模并行计算,特别适合自然语言处理(NLP)和生成式AI任务。从现在的信息来看,这款产品微软选择和Marvell 合作。
LPU与GPU对比
早在今年1月就有消息传出,美国推理芯片公司Groq已经在自己的LPU芯片上实机运行DeepSeek,效率比最新的H100快上一个量级,达到每秒24000token。值得关注的是,Groq曾于2024 年12月在沙特阿拉伯达曼构建了中东地区最大的推理集群,该集群包括了19000个Groq LPU。
Open AI首款AI ASIC芯片即将完成,会在未来几个月内完成其首款内部芯片的设计,并计划送往台积电进行制造,以完成流片(taping out)。最新消息是,OpenAI会在2026年实现在台积电实现量产的目标。
03ASIC真的划算吗?
谷歌、AWS、Open AI都在加大对自研ASIC的投入。那么,ASIC真的划算吗?
先从性能上来看,ASIC是为特定任务定制的芯片,其核心优势在于高性能和低功耗。在同等预算下,AWS的Trainium 2可以比英伟达的H100 GPU更快速完成推理任务,且性价比提高了30%~40%。Trainium3计划于2025年下半年推出,计算性能提高2 倍,能效提高40%。
并且,GPU由于架构的特性,一般会在AI计算中保留图形渲染、视频编解码等功能模块,但在AI计算中这些模块大部分处于闲置状态。有研究指出,英伟达H100 GPU上有大约15%的晶体管是未在AI计算过程中被使用的。
从成本上来看,ASIC在大规模量产时,单位成本显著低于GPU。ASIC在规模量产的情况下可以降至GPU的三分之一。但一次性工程费用NRE(Non-Recurring Engineering)非常高。
以定制一款采用5nm制程的ASIC为例,NRE费用可以高达1亿至2亿美元。然而一旦能够大规模出货,NRE费用就可以很大程度上被摊薄。
此前有业内人士分析,中等复杂程度的ASIC盈亏平衡点在10万片左右,这对于很多厂商来说已经是遥不可及。
但对于大规模部署的云计算大厂或AI应用提供商,ASIC的定制化优势能够显著降低运营成本,从而更快地实现盈利。
04算力走向推理,ASIC的需求只多不少
在温哥华NeurIPS大会上,OpenAI联合创始人兼前首席科学家Ilya Sutskever曾作出“AI预训练时代将终结”的判断。
巴克莱的一份报告预计,AI推理计算需求将快速提升,预计其将占通用人工智能总计算需求的70%以上,推理计算的需求甚至可以超过训练计算需求,达到后者的4.5倍。
英伟达GPU目前在推理市场中市占率约80%,但随着大型科技公司定制化ASIC芯片不断涌现,这一比例有望在2028年下降至50%左右。
不过,在博通的观察中,AI训练仍然是会占据主流。博通CEO陈福阳最近表示:“公司把推理作为一个独立的产品线,推理与训练芯片的架构非常不同。公司预计三个客户未来需求市场总量将达600亿~900亿美元,这个需求总量既包含了训练,又包含了推理,但其中训练的部分更大。”
对于第二季度来讲,博通对于ASIC的预期仍旧保持乐观。预计第二季度博通的AI半导体收入将继续保持强劲增长势头,达到44亿美元。
Marvell在电话会议上,同样也展示了对于ASIC的信心。透露其定制的ARM CPU,将在客户的数据中心中得到更广泛的应用。并且定制的人工智能 XPU,其表现也非常出色,未来将有大量的量产。
原文标题 : 3nm赛道,挤满了ASIC芯片