AI智能总结
报告概要 作为深芯盟500家国产芯片行业分析报告的一部分,2025年结合高性能AI芯片和处理器于一个报告,汇总了70余家国产芯片厂商,对于每一家筛选的公司,我们从核心技术、公司发展和应用场景等方面对公司进行全方位画像分析。 我们首先对Chiplet、HBM技术和存算一体技术以及其对AI芯片未来发展所带来的影响进行了简要阐述,然后结合应用和潜在需求进行分析,并且针对上市公司的财务数据进行归纳比较。 报告内容目录 一、Chiplet与高性能计算(HPC)芯片二、CoWoS与先进封装三、HBM技术四、存算一体技术五、基于RISC-V架构的高性能处理器六、AI芯片性能分析七、全球AI芯片出货量排行榜八、国产AI芯片和处理器上市公司综合实力排名九、74家国产AI芯片和处理器厂商信息汇总 一、Chiplet与高性能计算(HPC)芯片 Chiplet是最近AI芯片和高性能计算领域最火的话题,在芯片设计界有一句话是说,设计一款3nm制程的芯片并不困难,但是制造一块7nm芯片却让市值千亿的公司花费4年时间。而随着摩尔定律进入到2nm甚至1nm到了近乎原子级别,工艺、设备和材料难度呈几何级上升,而且成本高的吓人,也只有头部的巨头才能玩的起。所以随着芯片技术要求的不断提升,系统级芯片SoC开始显得力不从心,Chiplet技术悄然兴起。 像是大算力AI芯片、GPU和CPU芯片,计算单元+存储单元+I/O接口+电源管理等主要功能模块每个部分都至关重要在一个芯片上设计这么多模块,还要保证制造阶段的良率可以说难度不亚于“登天之道”,而chiplet可以说完美契合这一难题,使用模块化的设计方法,通过划分芯片为小块独立的单元来提升芯片的灵活性和可拓展性,使得不同功能晶粒更容易的集成到一个芯片上。 拆分后的芯片甚至可以交给不同的制程去做,各个模块并行开发测试,像是Intel和Nvidia均采用了chiplet开发其产品,既减小了设计难度,又加快了芯片研发进程,实现了更快的产品迭代。并且采用chiplet模块化的芯片良率得到的巨大提升,成本也比一整块的芯片低的多。 但是新技术就会带来新的挑战,Chiplet需要在有限的空间内实现芯片的高密度堆叠和信号的高密度互联,不同模块的电信号需要可靠稳定的通信,于是TSV(硅通孔)、CoWoS和InFO技术等应孕而生;模块多带来的复杂场影响效应也翻倍增长,不同模块的电信号、磁信号、散热、热应力等多物理场互相作用非常复杂,设计工程师和工艺工程师需要紧密配合,不断仿真模拟和改进工艺参数才能保证整个芯片的稳定和可靠。 模块化技术想要推广和发展离不开标准化和兼容性,软件和硬件都绕不开行业的统一标准,UCIe(Universal ChipletInterconnect Express)就是Intel、ARM、AMD、TSMC和三星等十几家芯片设计和制造巨头联合推出的Chiplet标 准,旨在通过统一的接口规范促进Chiplet技术的普及和应用。2023年9月Intel推出首个遵循UCIe连接规范的Chiplet测试芯片——Pike Creek,AMD的Genoa CPU和Instinct MI300GPU,Nvidia的Grace服务器CPU等均是Chiplet技术的产物。 Chiplet在高性能计算芯片的设计上显得至关重要,最先进的技术不一定一家公司全都掌握,一块高精尖芯片的诞生就像全球顶级供应链的整合,例如NVidia和AMD负责设计GPU核心,SK海力士和三星负责DRAM和缓存,各大IP公司拿出其加速芯片、互联管理芯片和电源芯片等,最终交给半导体芯片制造商台积电或Intel负责封装和制造,细看下来其中涉及到的公司可能就有十几家,协调如此庞大的队伍绝非易事,行业联盟的标准化不仅可以降低成本还可以再一个封装体内部实现不同架构不同制程节点的chip互联。 二、CoWoS与先进封装 CoWoS初看听陌生,实际上是芯片封装由2D向3D发展的产物,在芯片不断迭代过程中的一种封装形式。现阶段主流的系统级封装形式: ○2.5D封装(Interposer、RDL)○3D封装(TSV) ○倒装FC(Flip Chip)○凸块(Bumping)○晶圆级封装WLP(WaferLevelPackage)○CoWoS (Chip onWafer on Substrate)○InFO (Integrated Fan-Out)○EMIB(Embedded Multi-die InterconnectBridge) CoWoS正是一种目前台积电主推的2.5D封装形式,chip被放在带有内布线的中介层(Interposer)上,通过芯片上的微小凸块(Bumping)与中介层键合,实现彼此的信号互联。中介层通过硅通孔(TSV)将信号引到另一面,通过锡球或者凸点连接到PCB封装基板上,这种设计将原先需要2D平面(都放置在基板上)的die堆叠起来,极大的提升了芯片集成度,并且die与die之间的距离大大缩短,高速信号的互联和数据传输的时延降低了几个数量级。此类封装拥有超高布线密度(L/S:0.4/0.4微米),超高I/O密度(大于400μbumps/mm²)和I/O间距可扩展性,并且异构芯片和光学、电磁芯片都能完美集成到一个封装体内。 据资料显示,英伟达的算力卡芯片封装就采用了台积电的CoWoS方案,单芯片的密度和算力均是之前封装的4倍之多,在寸土寸金的GPU和AI算力芯片领域,CoWoS不仅节约了空间,还增强了芯片与芯片之间的互联性和降低了传输线损耗。 这种与HBM混合封装技术是获得高速算力和海量数据吞吐的关键技术,目前也是业界最主流的封装方式,CoWoS为高算力卡的封装提供了其他封装无可比拟的最佳性能和最高集成密度。像是4xHBM+1SoC和2xHBM+1SoC等等各种中介层尺寸,各个HBM die数量自由搭配,可以获得各种性能的算力卡。 TSMC的CoWoS技术,其本质上是interposer尺寸的进步,由于Si Interposer尺寸的限制,涉及一个词叫reticlelimit,可理解为光刻机可处理的极限尺寸。也就是说即便不考虑良率和成本问题,以现有装置,一片die的尺寸再大也是有极限的。其第一代CoWoS-1,所用的interposer尺寸已经达到大约800mm²,第二代CoWoS-2,通过使用一种叫two-maskstitchingphotolithography的技术,可以使得interposer尺寸可以达到1200mm²,随后几代CoWoS封装的interposer尺寸稳步提升到1700mm²,大约是2x reticle limit。现在的第五代CoWoS-5,通过使用一种叫2-waylithographystitchingapproach技术,可以使得interposer尺寸可以达到2500mm²。 三、HBM技术 要说将CoWoS技术发扬光大的还是HBM(HighBandwidth Memory)即高带宽存储器这一先进封装,将多个DRAM垂直堆叠,超大容量和超高带宽可以让单算力卡的性能直线提升,以满足高性能计算、人工智能等领域对内存的严苛要求。在硅通孔(TSV)和微凸块(Bumping)封装技术,打破了传统内存带宽和功耗瓶颈,内部短距离互联GPU和 DRAM,不仅在最大程度上减少封装体面积,还大大缩短了信号数据的传输时间。 据各大厂商透露出的数据来看,HBM拥有比GDDR4倍多的带宽,可提供最高位460GB/s的带宽,而功耗仅为GDDR的二分之一,HBM提供的现存位宽也来到的1024bits是GDDR5的32-bits4倍大小,虽然时钟频率HBM比GDDR5慢了不少,但是单次发送数据的bits位数翻了4倍,实际使用中的显存带宽还是远远高于GDDR5的。 晶圆代工尤其是先进制程始终是电子行业的“兵家必争”之地,DRAM虽不如CPU话题度拉满,但是其制程迭代也是不断精进,1x、1y、1z、1α(1-alpha)、1β(1-beta)和1γ(1-gamma),其中1β(1-beta)节点是目前量产的最先进制程,从Trendforce和各大厂商透露出的资料来看,三星采用的是1α(1-alpha),而SK海力士和美光采用的是1β(1-beta)制程,大家不相伯仲,随着工艺和材料的进一步发展相信1γ会很快就到来。 新技术一向是产能紧张,HBM的供给面也是呈井喷式爆发,根据TrendForce分析师给出的产业预测报告,三星和SK海力士正在扩充其HBM的产能,翻了近3倍约为每月12-13万片,美光则稍逊一些,每月大约为2万片左右,但对比自身产能翻了近7倍,实力不容小觑。尤其是2024年,HBM也已经来到了HBM3e的超强拓展版本。历经HBM1、HBM2、HBM2e、HBM3、HBM3e(第五代)各个版本,现在主流量产的版本是HBM3的拓展(extension),其带宽、层数、容量和I/O速度都有明显的提升。 HBM每更新一次技术,其带宽和I/O速率都明显提升,其数据传输速率来到了8Gbps,相当于1.18TBps,我们普通家用电脑1TB的固态硬盘约有931GB的空间,写满整个硬盘花不到1秒钟的时间。细看下来,各家最新的HBM3e的极限速率还有所不同,SK海力士提供8Gbps,美光的提供9.2Gbps和24GB的显存,而三星的HBM3e则更为激进,提供高达9.8Gbps的I/O速率,整体传输速率可超过1.2TBps,产品容量达到了36GB。 HBM4作为目前最先进的技术,基本也将面世,HBM4是目前发布的HBM3标准的进化版,与HBM3相比,HBM4计划将每个堆栈的通道数增加一倍,物理占用空间也更大,HBM4会搭载24Gb和32Gb的内存颗粒,支持4x-16x的堆叠高度。其带宽扩展到2048GB/s,部芯片接口将的微凸块间距缩小到55μm以下,堆叠层数也来到了最高16层之多,从凸块微小尺度到堆叠层数均是之前技术的瓶颈所在,据三月三星透露的消息看,国际半导体标准组织(JEDEC)同意将HBM4产品的标准定为775微米HBM4(HBM3e为720微米(μm)),但从尺寸增加来看现有堆叠也能够做到16层,但是复杂度和良率也是各大厂商考量的重要因素,所以新的键合技术应当是接下来几家巨头需要研究的重点课题。 在OCP全球峰会上,三星提出了在HBM与Logic芯片间采用Optical IO技术进行数据互联,并给出了两个可能的芯片架构,如上图所示,光子在链路上的流动速度比数字信号的速度更快,而且功耗更低,不得不说HBM就是在 比速度,也许未来某一天会见到内部拥有光速传输信号的芯片,我们团队一致认为最先普及的应当就是HBM了。 四、存算一体技术 自从OpenAI的ChatGPT于2022年11月推出以来,AIGC迅速在全球掀起一股热潮,大模型成了全球科技公司的座上宾,据统计全球现有超过千万个大模型24小时不停运转,其算力总需求预计到2025年将达6.8ZFLOPS(每秒十万京(=10^21)次的浮点运算)。而且算力翻倍时间在明显缩短,在大模型横空出世后,全球新的算力增长点井喷式发展,如果按照摩尔定律来进行衡量和估计,平均每十个月算力就将翻一倍,比物理尺度上晶体管翻倍还来得快。当然算力单纯堆砌并不能获得如今质的飞跃,算力中心碰见的「存储墙」和「功耗墙」这两大难题急需解决,而存算一体技术就是目前看来的破解之道。 有必要先介绍下计算机的架构--冯·诺依曼架构,计算单元-内存-存储,通过地址线和数据线相互连接,在计算过程中数据被频繁的搬来搬去,广义上就是我们经常说的“读”和“写”,这种开销即会消耗很多的能量,又浪费了很多的时间,intel的一项研究表明,在其7nm制程的芯片上,数据搬运功耗高达35pJ/bit,占总功耗的63.7%之多,也就是上述提到的「功耗墙」问题。而「存储墙」更是棘手,如下图所示,近二十年GPU提升了近10^6倍,而内存和接口仅提升了100倍左右,存储器的性能越来越跟不上计算核心的性能,导