一、计算芯片:看好 AI 催化 GPU/CPU 等各类计算芯片投资机会
1.1 GPU 为 AI 训练算力之源,国产替代和自主可控逻辑进一步加强
在人工智能发展的早期,缺乏算力和数据资源以及算法模型的局限性使得企业难以将偏通 用的场景落地到企业场景中。而随着 Transformer 模型统一底层算法模型后,算力和数据 则逐渐成为最宝贵的资源。ChatGPT 爆火的背后则代表着 AI 领域的未来发展趋势,大模 型先在大规模公开数据集上完成预训练,随后迁移到具体应用场景上无需或仅需少量调整 即可应用。预训练大模型的崛起以及算力成本的不断下降,使得大模型逐渐成为 AI 领域 的基础设施,而 GPU 则是 AI 训练算力之源。
(资料图片仅供参考)
AI 大模型时代,算力需求提升明显,并保持指数级增长。 2015 至 2016 年左右,AI 大模 型问世,大模型趋势始于 2015 年底 AlphaGo 的出现并一直延续至今。期间,这些大规 模模型由科技巨擘训练,他们拥有的更多训练预算打破了以往的趋势,大模型由于参数数 量大幅增加,所需要的算力也相较常规模型大幅增长。目前 ChatGPT 的总算力消耗约为 3640PF-days(即假如每秒计算一千万亿次,需要计算 3640 天),需要 7~8 个投资规模 30 亿、算力 500P 的数据中心才能支撑运行。 大模型算力增加呈指数级变化,每 9 至 10 个月翻一番。2015 年推出的 Alpha Go Lee 大 模型所需要的训练量算力超过 10^21 FLOPs,而 2021 年推出的大模型 Megatron-Turing NLG 530B 的训练算力需求已经超过了 10^24 FLOPs,算力提升了 1000 倍左右。
中美在 AI 大模型赛道上展开激烈竞争,背后比拼的是算力以及数据资源。根据 OpenBMB 的数据,截至 2022 年 12 月,拥有大模型数量前十名的组织中,中国和美国分别占据 4 和 6 席;拥有大模型参数量前十名的组织中,中国和美国同样分别占据 4 和 6 席。
GPU 直接受益于全球算力需求激增。根据 VerifiedMarketResearch 的数据,2021 年全球 GPU市场规模335亿元,2028年全球GPU市场规模有望达到4774亿元,22-30年CAGR 达 33.3%。英伟达是 GPU 市场的主导者,全球独立显卡市占率高达 80%。其高端 GPU 如 H100,A100 和 V100 等占据了 AI 算法训练市场绝大部分的份额。
我们测算 2026 年全球数据中心 GPU 市场规模将达到 749 亿美元。随着 ChatGPT 引爆 新一轮人工智能应用的热情,我们看好人工智能将成为未来无所不在的工具,海内外数据 中心、云业务厂商纷纷开始推动 AI 基础设施建设,AI 服务器出货量在全部服务器中的占 比逐渐提高。根据 TrendForce 的数据,2022 年搭载 GPGPU 的 AI 服务器年出货量占全 部服务器的比重接近 1%,2023 年在 ChatGPT 等人工智能应用加持下,根据我们对产业 链上下游的调研,我们看好 2023-2025 年 AI 训练服务器出货量实现 50%左右的高增速, 2026 年出货量增速保持在 30%左右。目前数据中心 GPU 主要以英伟 H100、A100、A800 (主要出货中国)以及 AMD MI250、MI250X 系列为主,英伟达与 AMD 的占比约 8:2。 我们测算 2026 年全球数据中心 GPU 市场规模有望达 749 亿美元,22-26 年 CAGR 达 44%。
目前国内厂商 GPU 市占率不足 1%,美国对华制裁加速 GPU 国产替代。2015 年以来美 国对 GPU 的制裁不断升级,美国国防部研究员曾提出中美竞争中,利用人工智能更多且 更快的一方将获胜。前几年主要是美国将中国超算中心及相关 GPU 芯片企业拉入实体清 单,以此达到限制中国 AI 以及超级计算机的发展,但是限制范围限于超算单一场景。2022 年 9 月,美国针对 AI、HPC 及数据中心研发所用的高端 GPU 发出限制,英伟达的 A100 和 H100 以及 AMD 的 MI250 芯片暂停向中国客户销售。2022 年 10 月,美国升级禁令限 制范围,对高算力芯片的连接速度和每秒运算次数等具体参数做限制,除英伟达和 AMD 外,国内厂商海光信息的部分产品也被加入到限制范围内。美国将制裁限制范围由应用场 景扩大到芯片和产品层面,其实也是代表着国内相关 GPU 产品或下游应用发展超过美国 政府的预期。我们认为美国持续加大对中国高端芯片的出口限制,高速运算相关的 GPU 芯片国产化进程必然加快。
1.2 AI 及信创推动核心行业服务器 CPU 国产替代浪潮
国产服务器在运营商、政府以及企业上渗透主要由信创推动:党政信创先行,八大行业全 面推进。国家层面提出的是 2+8 体系,“2”代表党、政,“8”则是代表国民生计的八大行业:金融、电力、电信、石油、交通、教育、医疗、航空航天。党政机关是信创国产化的领头 羊,据零壹智库的数据显示,信创应用进展落地最快是党政,落地实践率为 7.01%。而八 大行业中,金融行业是最早开始推进信创应用同时也是进度最快的行业,落地实践率为 29.55%,其次是电信和电力行业。
英特尔和 AMD 垄断全球 CPU 市场,英特尔在服务器 CPU 市场占据绝对优势。根据 IDC 的数据,2022 年全球服务器市场规模有望达 1216 亿美元,2026 年全球服务器市场规模 有望达 1665 亿美元,22-26 年 CAGR 达 10.2%。截至 23Q1,intel 在全球 CPU 市场中 的占比为 63。0%,在全球服务器 CPU 市场中的占比为 94.2%,在服务器 CPU 市场中 占据绝对主导地位。
国产服务器 CPU 芯片渗透率低,对应巨大国产替代空间。根据海光信息招股说明书的数 据, 2020 年国内 x86 服务器芯片出货量 698.1 万颗,绝大部分市场份额被 Intel 和 AMD 两家公司占据,合计市场份额超过 95%,其中 Intel 产品市场占有率遥遥领先。2020 年 海光信息 CPU 产品销售量约占总体市场份额的 3.75%,占据了国产 x86 服务器 CPU 绝 大部分市场份额。除了海光之外,国内 CPU 厂商主要有海思、龙芯、兆芯、飞腾、申威 等。
我们测算国内 x86 服务器用 CPU 市场规模为 315.1 亿美元。IDC 数据显示,预计 2025 年国内 x86 服务器出货量将达到 525.2 万台。根据 x86 服务器出货量和 x86 服务器路数 分布情况进行计算,2020年中国市场x86服务器芯片出货量约为698.1 万颗。假设到2025 年 x86 服务器的平均路数为 3,预测 2025 年中国市场 x86 服务器芯片出货量可达 1575.6 万颗,对应市场空间可达 315.1 亿美元,22-25 年 CAGR 达 19%。 我们测算 2025 年整体 x86 架构国产 PC+服务器端 CPU 国产替代空间达 554.3 亿元, 22-25 年 CAGR 为 32%。我们认为服务器领域国产替代空间,主要在于政府机关、事业 单位以及核心国央企等,有望率先放量。测算逻辑如下: 1)相关人数测算:根据人社部 2016 年发布的《2015 年人力资源和社会保障事业发 展统计公报》,中国共有公务员 716.7 万人,我们假设目前公务员人数为 800 万人。根 据国家统计局,2020 年我国国有单位就业人员共 5563 万人,此口径以政府机关、事业 单位为主,根据国家统计局,剔除教育、卫生&社会保障和社会福利院后,2020 年中口 径国有单位就业人员共 3032 万人,因此假设国央企及事业单位人数预计有 8000 万人。 2)假设每人配备一台 PC,PC 与服务器配置比例为 10:1,根据海光 3000 系列,PC 端 CPU 单颗价值 1000 元/颗,服务端:海光目前最高端 7200 芯片 ASP 11000 元,低端 7100 ASP 4000 元,整体服务器 CPU 均价大约 8000 元/颗。3)假设到 2025 年党政机关国产服务器替换比例为 95%,其中国产 x86 服务器占比 20%;国央企及事业单位国产 x86 服务器替换比例为 20%。那么测算得出,预计 2022 年 X86 架构国产 PC+服务器 CPU 替换空间为 242.8 亿元,到 2025 年有望达到 554.3 亿 元,22-25 年 CAGR 为 32%。
二、PCB:AI 催化算力需求,看好服务器主板和载板投资机会
1)AI 需求兴起,服务器 PCB/CCL 升级大潮将至
需求端,为了更高的数据运算和传输效率来支持技术不断迭代更新云计算平台,PaaS 对 IaaS 以及更上游零部件提供的新代更优产品有较为迫切的需求。供应端,数据运算和传 输效率的性能提升来自两方面:服务器设备数量的增加和单设备算力的提升,其中服务器 算力的提升主要依靠整个服务器平台(CPU+芯片组+总线)。
AI 需求兴起将加速服务器平台向更强大性能设备方向的产品换代需求。PCB/CCL 行业在 这一发展过程中将呈现产品价值量普遍提升的趋势。从主流厂商规划来看,目前 Intel 服 务器平台正经历从 Whitley 升级至 Eagle Stream 的过程,其中 PCB 层数将从 12-16 层升 级到16-20层,价值量将会至少提升50%,CCL等级将从Low Loss升级至Very Low Loss, 价值量将提升 50%~100%,可见服务器升级将给 PCB/CCL 带来显著的价值增长。
从格局上来看,大陆PCB厂商因配合国内服务器厂商研发和供应,已经在全球服务器PCB 竞争中占有一席之地,只要服务器升级放量,则会对相应的大陆 PCB 厂商带来拉动;大 陆 CCL 在全球市场竞争中布局相对较慢,全球特种基材 CCL 市场(包括高速 CCL)竞 争中仅有生益科技进入全球前十大供应商,可见国内 CCL 在高端 CCL 市场仍处于追赶的 阶段。
2)算力对 CPU/GPU 要求大幅提升,先进封装凸显载板价值
AI 对算力提出了较高要求,但随着先进制程的提升越发缓慢,先进封装将成为解决多芯 片之间高速互连的关键方向(预计未来复合增速达到 9.8%),而载板作为先进封装的核 心材料(成本占比达到 50%),有望在算力提升的大背景下打开价值空间。 载板的作用是为 CPU 等芯片与 PCB 母板之间提供电气连接与物理支撑。随着 GPU/CPU 芯片的性能提升,其对相应载板的要求也水涨船高,具体来说,FCBGA 载板最能够满足 AI 运算高性能需求。AI 技术发展对先进封装技术要求进一步提升,而 FCBGA 作为能够 实现芯片高速化与多功能化的高密度半导体封装基板,相较 FCCSP 产品而言具有层数 多、面积大、线路密度高、线宽线距小等特点,能够承载 AI 高性能运算。根据 CPCA, PGA/LGA/BGA 产品 2021-2026 间 CAGR 将达 11.5%,到 2026 市场空间超 120 亿美元, 为载板产品中增长最快、价值量最高的产品。
载板因产业链壁垒和技术壁垒较高,因此该市场长期被日韩台厂商高度垄断,根据 2021 年数据,目前国内主要载板公司深南电路、兴森科技在全球的市占率合计不到 5%。我们 认为随着半导体产业链国产替代趋势凸显,国内厂商布局步伐加快将带来快速成长机会, 行业上升空间较大。国内载板厂商已经形成鲜明的布局梯队,其中深南电路、兴森科技、 珠海越亚因布局较早成为国内布局第一梯队厂商,景旺电子、博敏电子、中京电子、崇达 技术等也在相应做载板相关布局,我们认为在当前国产替代迫在眉睫的阶段,应当首先关 注第一梯队厂商与大客户配合情况,其次应跟踪第二梯队厂商的技术突破情况。
基于边际变化分析的角度,我们认为可以通过两方面的对比来把握未来变化关键点,一方 面对比 DGX A100 和普通服务器,以观测 AI 带来的价值增量;另一方面对比 DGX A100 和 DGX H100,以观测未来 AI 技术继续迭代的情况下 PCB 的增量点。
2.1 普通 vs A100:普通单机 2425 元,95%的价值增量贡献来自 GPU 板组
依据前述拆解方式,我们选取市面上较为先进的 2U 普通服务器华为 2288H V6(双路服 务器,PCIE 4.0)为普通服务器代表,通过拆解分析,我们估测普通服务器的 PCB 用量 面积为 0.630 平方米,并且根据产业链调研,普通服务器功能板块的 PCB 板型规格与 AI 服务器中 CPU 母板组和配件组相差不大,由此合计估测单机价值量为 2425 元。
对比普通服务器和以 DGX A100 为代表的 AI 服务器,AI 服务器所用 PCB 单机价值量相 对普通服务器提升 532%,增量贡献主要来自算力需求(贡献增量的 95%)和集中度提升 (贡献增量的 5%),其中载板级的单机价值量提升 490%、增量贡献主要来自算力需求 (贡献增量 100%),PCB 板级的单机价值量提升 580%、增量贡献 90%来自算力而 10% 来自集中度提升。
2.2 A100 vs H100:H100 单机 1.95 万元,83%的价值增量贡献来自 GPU 板组
再对比新款 DGX H100 和 DGX A100,我们发现新产品架构有一些变化,同样分三个部 分来看: 1)GPU 板组,性能提升之后相应 PCB 的规格也会有所提升,具体来看, GPU 载板,芯片性能增加,封装架构也会升级(如搭配 HBM3),根据产业链 调研,H100 单片载板价值量会提升 30%、约为 150 美元/片,在数量和面积变 化不大的情况下,估测单机价值量为 7800 元,单机价值量相对 A100 方案提升 50%; NVSwitch,集成度提高导致数量减少为 4 片,单价估测提升至 40 美元/片,因此 对应单机价值量为 1040 元,单机价值量相对 A100 方案有所下降 11%; GPU 加速卡(OAM),由于芯片性能有所提升,加速卡的工艺规格升级为 5 阶 HDI,对应单价提升至 15000 元/平方米,在数量和面积没有变化的情况下,估测 单机价值量提升至 3600 元,相比 A100 提升 25%; GPU 模组板(UBB),集成度提高使得模组板的设计相对更紧凑,但层数和工 艺变化不大,对应单价提升至 11000 元/平方米,在数量和面积没有变化的情况 下,估测单机价值量提升至 3300 元,相比 A100 提升 10%。 由此,DGX H100 GPU 板组 PCB 用量的面积为 0.612 平方米,单机价值量提升至 15700 元,相比 A100 版本提升 28%,主要提升点来自 GPU载板、GPU 加速卡(OAM) 和模组板(UBB)。
2)CPU 母板组,CPU 母板有升级,网卡集成度显著提升,具体来看, CPU 载板,CPU 芯片虽然有相应升级,但封装承载结构变化不大,根据产业链 调研预估 DGX H100 的 CPU 载板价值量保持为 1300 元; CPU 母板,DGX H100 采用 PCIE 5.0 总线标准,CPU 芯片平台升级,根据产 业链调研 PCIE 5.0 服务器主板的单价会提升至 5000 元/平方米,因此在面积不 变的情况下单机价值量提升至 1900 元,相比 A100 方案提升 67%; 其他配板,整体变化不大,值得一提的是网卡板的形态由 A100 的 Mellanox 成 熟设计插拔的方案变为 2 张集成 4 芯片的 ConnectX-7 的 PCB 板(对应 8 个端 口)、2 张单芯片双端口的 NVIDIA BlueField-3 DPU VPI 网卡板、1 张 RJ45 接 口板载网卡、1 张以太网可选网卡合计 6 张网卡板,相较 A100 方案网卡板数量 下降但集成度和性能有所提升; 综合计算,我们估测 DGX H100 CPU 板组 PCB 用量的面积为 0.628 平方米,单机价 值量提升至 3554 元,相比 A100 版本提升 25%,主要提升点来自 CPU 母板。
3)配件,DGX H100 仍然保持电源 6 个、硬盘 8 个、前控制台板 1 块的配置,PCB 板规格变化也不大,因此我们估测配件用量仍为 0.188 平方米,单机价值量为 226 元。
我们估测 DGX H100 服务器的 PCB 用量面积为 1.428 平方米,单机价值量为 19520 元, 其中GPU板组单机价值量达到1.57万元、占比达到81%,CPU母板组单机价值量为3554 元、占比为 18%,其他配件单机价值量 226 元、占比为 1%;从板级的分类来看,载板 级别单机价值量为 10140 元、占比达到 51.9%,PCB 板级单机价值量为 9380 元、占比 为 48.1%。
对比 DGX A100 和 DGX H100,平台升级将使得 PCB 单机价值量提升 27%,增量贡献 83%来自 GPU 板组、17%来自 CPU 母板组,其中载板级的单机价值量提升 32%、增量 贡献主要来自 GPU 板组(贡献增量 100%),PCB 板级的单机价值量提升 23%、增量贡 献 59%来自 GPU 板组而 41%来自 CPU 母板组。
2.3 价值增量来自 GPU 板组,后续升级载板增速高于 PCB 板级
综合前文拆解情况,我们认为 AI服务器相对普通服务器的 PCB 单机价值量增幅为 532%, 其中载板级别增幅 490%、PCB 板级别增幅 580%,PCB 板级增幅较大的原因在于普通 服务器的 PCB 的价值量低于载板级产品;再者,AI 服务器升级过程中,载板级别增幅为32%、PCB 板级别产品增幅为 23%,可以想见 AI 服务器升级中与 GPU 相关度越高则增 值幅度越大。
2.4 AI 服务器 PCB 存在三种供应关系,须分别把握产业链逻辑
AI 服务器涉及到的三个部分,供应关系的决定权会有一定的区别,具体来看: 1)GPU 板组,所涉及到的 4 个板块均由 GPU 设计厂商全权设计,对应的 PCB 板的供 应关系决定权也就由 GPU 设计厂决定;GPU 设计厂通常给品牌服务器厂商(国内产 业链为主)和云计算厂商(海外产业链为主)交付整个 GPU 板组,有些情况 GPU 设 计厂会给客户交付 GPU 加速卡(PCIE 版本),极少情况 GPU 设计厂会直接给客户 交付芯片。综合来看我们认为 PCB 在 GPU 板组供应链的决定权主要掌握在 GPU 设 计厂手中。 2)CPU 板组,遵循既有的服务器厂商供应链关系,即 CPU 载板由 CPU 设计厂决定, CPU 模板和一些整套系统所需要用到的拓展卡板由终端客户决定,而其他带芯片的 PCB 板大部分的场景是客户向功能件厂商提出设计需求,然后由功能件厂商自行决定 PCB 的采购。 3)配件,配件通常是客户直接购买模组厂成熟的产品,部分场景是客户会向配件模组厂 商提出一定的设计需求,但不影响模组厂商对 PCB 采购的决定权。 基于此,在考虑 PCB 厂商在 AI 服务器中的成长机会时,应当区分供应产品所处的产业链 关系,从而把握逻辑真相。
三、存储芯片:关注服务器 DDR5 渗透率提升及 HBM 显存投资机会
3.1 服务器用 DDR5 即将放量
英特尔已于 23 年 1 月份正式推出支援 4800MT/s,DDR5 的 Intel 7 服务器 CPU Sapphire Rapids,而 AMD 在 22 年 1 月推出的 5nm 服务器 Zen4 CPU Genoa,也将支援 5200MT/s 的 DDR5。我们认为 DDR5 将比 DDR4 芯片面积及价格提升 25-30%,意思就是消耗掉 更多的内存 DRAM 芯片产能。根据 Yole 的数据,2022 年全球内存模组市场规模达 420 亿美元,其中 PC 市场规模 66 亿美元,同比下滑 36%,服务器市场规模 331 亿美元,同 比增加 0.4%。2028 年全球内存模组市场规模有望达 963 亿美元,22-28 年 CAGR 达16%, 服务器端 CAGR 达 19%。2022 年全球内存模组出货量 5.11 亿,其中 DDR4 出货 5.0 亿, DDR5 出货 0.11 亿。2028 年全球内存模组出货量有望达 6.5 亿,DDR5 占比超过 98.7%,22-28 年 DDR5 内存模组出货量 CAGR 达 97%。
除此之外,为了能够梳理 CPU 与 DDR5 内存之间大量的数据存取,整体 DDR5 模组中DDR5 1+10 内存接口芯片比重应该会提升超过 10%,内存接口芯片面积也会加大,还要 推新串行检测,温度传感,电源管理芯片等配套芯片。TrendForce 研究机构还预期 DDR5 模组的电源管理芯片因产能短缺,可能面临缺货的窘境。我们估计 2022 年澜起, Renesas/IDT,Rambus 将分食 40%/40%/20%的 DDR5 内存接口芯片份额,而目前仅澜起 及Renesas/IDT 能提供完整的内存接口芯片加配套芯片解决方案。根据Yole的数据,2022 年内存接口芯片及配套芯片市场规模达 11 亿美元,2028 年市场规模有望成长到 40 亿美 元,21-28 年 CAGR 达 28%。
3.2 AI 爆火带动 GPU 需求激增,HBM 有望持续受益
“3D 堆叠+近存储运算”突破内存容量与带宽瓶颈,成为处理大量数据和复杂处理要求的 理想解决方案。 高带宽存储器(HBM, High Bandwidth Memory)是一款新型的高带宽、高附加值 DRAM 产品。凭借独特的 TSV 信号纵向连接技术,HBM 内部将数个 DRAM 芯片在缓冲芯片上 进行立体堆叠,其内部堆叠的 DDR 层数可达 4 层、8 层以至 12 层,从而形成大容量、 高位宽的 DDR 组合阵列。TSV 是在 DRAM 芯片上搭上数千个细微孔并通过垂直贯通的 电极连接上下芯片的技术。该技术在缓冲芯片上将数个 DRAM 芯片堆叠起来,并通过贯 通所有芯片层的柱状通道传输信号、指令、电流。相较传统封装方式,该技术能够缩减 30%体积,并降低 50%能耗。凭借 TSV 方式,HBM 大幅提高了容量和数据传输速率。 与传统内存技术相比,HBM 具有更高带宽、更多 I/O 数量、更低功耗、更小尺寸等特征。 除此之外,HBM 堆栈不通过外部互连线的方式与 GPU/CPU/Soc 连接,而是通过中间介 质层紧凑快速地连接信号处理器芯片。在传统的冯诺依曼计算架构中,处理器 CPU 存储 器之间通过数据总线进行数据交换,而由于存储与计算单元的结构、工艺、封装不同,导 致存储单元的访问速度远远跟不上计算单元的数据处理速度,系统每进行一次运算都需要 将参数输入存储器进行一次读写,因此信息交换速度的提高极其受制于存储器的性能。相 比之下, HBM 通过 3D 堆叠多层 DDR 提供海量并行处理能力、通过集成型 HBM 提供 极高的存储器带宽,并使得数据参数距离核心计算单元更近,从而有效降低数据搬运的延 迟和功耗。在系统集成方面,HBM 将原本在 PCB 板上的 DDR 内存颗粒和计算芯片一起 集成到 SiP,有效利用空间、缩小面积。
相比于 GDDR5,HBM 能大幅提高数据处理速度,其每瓦带宽可高至 3 倍以上,且能够 降低 63%的功耗以及节省 94%的芯片面积。以 HBM 为代表的超高带宽内存技术生成类 模型也会加速 HBM 内存进一步增大容量和增大带宽。目前三代 HBM DRAM 价格约是传 统 DRAM 价格的 5 倍。 HBM 融合了 3D 堆叠以及近存储运算技术,可消除内存受限、计算密集型工作负载的处 理与内存瓶颈,因此十分适合用于对性能要求高的计算系统领域,如:AI 服务器、超级 计算机、机器学习、数据库加速、新一代防火墙和高级网络测试器等应用领域。除此之外, HBM 在系统集成方面做到有效缩小芯片体积,也与半导体行业小型化、集成化的发展趋 势相吻合,作为存储速度最快的 DRAM 产品,HBM 或成为下一代 DRAM 高性能解决方 案,为快速发展的数据中心及云计算人工智能提供更高的 AI/ML 性能与效率。
ChatGPT 横空出世使得 AI 服务器爆火,催生对高算力 GPU 以及高性能存储的需求,高 带宽 HBM 或将持续成长。 HBM 当前渗透率依然较低,截至 2021 年,HBM 位元需求占整体 DRAM 市场的比例仍 未达 1%,主要由于:(1)消费级应用场景对于价格极其敏感,且数据处理复杂程度相 对不高,传统存储器足够满足其需求,几乎不需要使用到 HBM;(2)服务器市场出于性 价比考虑往往不会优选 HBM,大部分传统服务器仍使用 GDDR5、GDDR6 来提升内存性 能,目前搭载高端 AI 算力芯片的服务器占比仅 1%左右。 这几年因为英伟达的 GPU 大量被使用在人工智能的云端辨识系统,从每台服务器加两片 高速运算 GPU 卡,4 片到 8 片 GPU 卡都有,让英伟达在数据中心芯片市场的份额从 2018-2019 年的不到 10%,到 2021 年的超过 25%,全球人工智能服务器占比也逐年提 升至 2021 年近 10%。以英伟达 7nm 芯片 A100 为例,芯片面积虽然高达 826mm2,最 大耗电量达 400W, 但其在浮点半精度,单精度,双精度稀疏及理论峰值运算都明显优于 同业,为了让 A100 的 DGX 人工智能服务器系统发挥效能,除了要配备 512GB-2TB DDR4-3200 MT/s DRAM 给 AMD CPU 用外,还要另外配备 320-640GB HBM 给 GPU使用。以英伟达 A100 80GB 配置 4或 8张 GPU卡来计算,其 HBM 用量约为 320~640GB。 随着 AI 模型逐渐复杂化,将刺激更多的存储器用量,并带动 Server 端 DRAM、SSD 和 HBM 的需求成长。所以全球 AI 服务器(使用 GPU,ASIC 来做人工智能整数,浮点运算) 出货占比的提升,对 HBM 内存需求同比增长有明显的拉动作用, 占比逐年提升可期。
2023 年以来 Microsoft、Meta、Baidu 和 ByteDance 相继推出基于生成式 AI 衍生的产品 服务而积极加单,根据 TrendForce 的数据, AI 服务器用 GPU,主要以英伟达 H100、 A100、A800(主要出货中国)以及 AMD MI250、MI250X 系列为主,英伟达占比约 80%, 这些高性能 AI 芯片均采用 HBM,因此 TrendForce 预计 2023-2025 年 HBM 市场 CAGR 有望达 40-45%以上。根据我们对产业链上下游的调研,我们看好 2023-2025 年 AI 训练 服务器出货量实现 50%左右的高增速,2026 年出货量增速保持在 30%左右,我们测算得 2026 年 HBM 市场规模有望达 56.9 亿,2022-2026 年 CAGR 有望达 52%,符合市场预 期。
目前全球 HBM 市场仍旧由海力士与三星垄断,SK 海力士 HBM 技术起步早,从 2014 年 推出首款 HBM 后,SK 海力士一直是 HBM 行业领头羊,目前海力士占据全球 HBM 市场 一半以上的市场份额。后期在美光、Synopsys 等企业加入布局 HBM 产品推动行业加速 竞赛后,HBM 内存技术已从 HBM、HBM2、HBM2E 升级至 HBM3 标准(第四代 HBM)。 2021 年 SK 海力士发布的全球首款 HBM3 适用于 AI、HPC 等容量密集型应用,该产品 已于 2022 年 6 月开始量产并供货英伟达。英伟达对 HBM DRAM 的应用,标志着高性能 存储在数据中心的应用迎来了一个新的时代。2023 年 4 月,SK 海力士宣布已在全球首 次实现垂直堆叠12个单品DRAM芯片,实现最高容量24GB,容量较上一代 HBM3 DRAM 提升 50%,目前已向客户提供样品,正在接受客户公司的性能验证,将在上半年内完成 量产准备。目前海力士也正在进行 HBM4 的研发,预计后续将广泛应用于 AI、超算、高 性能数据中心、推荐引擎、800G 路由器交换机、数据库加速、防火墙监测等应用领域。 根据 TrendForce 的数据,2022 年三大原厂 HBM 市占率分别为 SK 海力士(SK hynix) 50%、三星(Samsung)约 40%、美光(Micron)约 10%。此外,伴随 AI 训练与推理 模型拉动高阶深度学习 AI GPU 规格的提升,其热度也将进一步向上传导至 HBM 产品的 需求拉升与技术更迭。目前已有 NVIDIA H100 与 AMD MI300 正式搭载 HBM,三大原厂 海力士、三星、美光也已规划在 2023 下半年进行相对应规格 HBM3 的量产。海力士作为 HBM 创始者具备先发优势,预计在今年将有更多客户导入 HBM3 的情况下,海力士整体 HBM 市占率有望进一步提升至 53%,而三星、美光则预计陆续在今年底至明年初量产, HBM 市占率分别为 38%及 9%。
四、服务器散热:AI 大模型带来了多少液冷市场增量?
4.1 AI 等应用带动功率密度升高,风冷达到功率上限
AI 应用加速数据中心向高密化趋势演进。面对 AI 带来的数据量和计算量的爆发式增长, 在数据中心资源尤其是一线城市资源日趋紧张的情况下,只有通过提高机房单位面积内的 算力、存储以及传输能力,才能最大程度发挥数据中心的价值。高算力 AI 芯片导入将加 速服务器高功率密度演进趋势。据 Uptime Institute 发布的《全球数据中心调查报告》显 示,2020 年全球数据中心平均单机架功率为 8.4kW/机架,相比于 2017 年的 5.6kW/机架 有明显的提高。其中,1-4kw 占 25%,5-9kw 占 46%,10-19kw 占 13%,中国目前与全 球水平仍有差距。据 CDCC 调研,国内全行业数据中心中 8kW 功率密度以上的机柜占比 由 21 年的 11%提升至 22 年的 25%,高功率机柜占比提升明显。未来,随着人工智能模 型训练推理等应用增加,多样化算力协同成为常态,单 IT 机柜主流功率密度将从 6-8KW/ 柜提高到 12-15KW/柜,超算、智算中心功率密度将提升至 30kW 以上。
人工智能芯片多用传统型芯片,或用昂贵的图形处理器 (GPU),或用现场可编程门阵列 芯片配合中央处理器 (FPGA+CPU)为主, 用以在云端数据中心的深度学习训练和推理, 通用/专用型 AI 芯片(ASIC),也就是张量处理器或特定用途集成电路 (ASIC),主要 是针对具体应用场景,三类芯片短期内将共存并在不同应用场景形成互补。
摩尔定律发展晶体管数量增多,产品功耗瓦数升高,对于散热的要求提升。随着 IC 制程、 晶片效能、小型化升级,芯片瓦数大幅提升,表面高单位密度发热,对于导热、散热的要 求提升。以主流厂商为例,Intel 10nm 以下制程需采均热片以解决发热问题,AMD 7nm 制程使用均热片,5nm 则必须采用均热片进行散热。未来随着先进制程比如 3nm 推进, 同时搭配 3D 封装,对于散热效率的要求更高。 芯片级散热的方式是通过热传导原理,将芯片不断产出的热能持续地传导至散热元件,热 能量传递通常是在非常接近热源的散热器上进行的。以笔记本电脑为例,电子产品朝轻薄 化、高性能化方向发展,晶片功能需要大幅增加,晶体管数量增多,对于散热要求提升。 ①电子设备 CPU 硅半导体不耐热,在过高温度下无法作为电子电路发挥作用。②中央处 理器和集成电路向电机等发出操作命令,产生的大部分能量都转化为热量。③小型化使得 能量越集中,温度越高,发热密度更高。早期笔记本散热模组使用 2 根热管,现在增加为 4 至 6 根,高端的产品使用均热板。
风机转速超过 4000r/min 后对热阻的效用是有限的。根据 CNKI,风冷系统中,风机转速 从 1000r/min 提高到 4000r/min,芯片散热中对流占主导,流速增加对流换热系数显著增 加,风冷方式能有效改善芯片散热问题。而当风机转速超过 4000r/min 后,传热热阻下降 比较平缓,转速增加只能改善与空气的导热传热,散热效果降低。 芯片级液冷是未来发展趋势。服务器 2U 空间下,250W 大约是风冷解热极限;4U 以上 风冷可以解到 400-600W;AI 芯片 TDP 普遍超过 400W,大多使用 4-8U。根据 CNKI, 芯片的平均热流密度将达到 500 W/cm2,局部热点热流密度将会超过 1000 W/cm2, 传统风冷散热已经达到极限。而芯片温度的控制对于稳定持续工作尤为重要,最高温度不 能超过 85℃,温度过高会导致芯片损坏,在 70—80℃内,单个电子元件的温度每升高 10℃,系统可靠性降低 50%,因此在功率提升的背景下,散热系统将向芯片级液冷升级。
风冷达到功率上限后性价比下降,液体吸热能力更强。根据《2021-2022 年度中国数据中 心基础设施产品市场总报告》,2021 年我国单机柜功率在 10kW 以上的数据中心市场规 模增速超过 10%,其中 30kW 以上增速达 31%。据预测,2025 年全球数据中心平均功率 提升至 25kW。TGG 认为每机柜 15-25 kW 的功率密度作为“未使用背板换热器等其他制 冷设备”的风冷解决方案的上限,当前自然风冷的数据中心单机柜密度一般只支持 8-10kW,冷热风道隔离的微模块加水冷空调水平制冷在机柜功率超过 15kW 后性价比大 幅下降。在同样单位体积下,液体吸收热量的能力更高。因此液冷技术能够更高效地散热, 以及让芯片能够更高效地工作。
4.2 冷板式成熟度高,浸没式冷却效率高,成本有望进一步优化
液冷技术分为接触式及非接触式两种,接触式液冷是指将冷却液体与发热器件直接接触的 一种液冷实现方式,包括浸没式和喷淋式液冷等具体方案。非接触式液冷是指冷却液体与 发热器件不直接接触的一种液冷实现方式,包括冷板式等具体方案。其中,冷板式液冷采 用微通道强化换热技术具有极高的散热性能,目前行业成熟度最高;而浸没式和喷淋式液 冷实现了 100% 液体冷却,具有更优的节能效果。
冷板式液冷成熟度高。冷板式液冷是通过液冷板将发热器件的热量间接传递给封闭在循环 管路中的冷却液体,系统主要由冷却塔、CDU、一次侧&二次侧液冷管路、冷却介质、液 冷机柜组成;芯片设备热量通过热传导传递到液冷板,工质在 CDU 循环泵的驱动下进入 冷板,之后在液冷板内通过强化对流换热吸收热量温度升高,高温工质通过 CDU 换热器 将热量传递到一次侧冷却液,温度降低;低温的工质再进入循环泵,一次侧冷却液最终通 过冷却塔将热量排至大气环境中。
喷淋式液冷是面向芯片级器件精准喷淋,通过重力或系统压力直接将冷却液喷洒至发热器 件或与之连接的导热元件上的液冷形式,属于直接接触式液冷。喷淋式液冷系统主要由冷 却塔、CDU、一次侧& 二次侧液冷管路、冷却介质和喷淋式液冷机柜组成;其中喷淋式 液冷机柜通常包含管路系统、布液系统、喷淋模块、回液系统等。
浸没式液冷技术通过浸没发热器件,使得器件与液体直接接触,进而进行热交换。浸没式 液冷技术主要由冷却液、腔体结构、换热模块及相关的连接管道等设施构成。其中,冷却 液为数据中心的换热介质,具有高绝缘、低黏度以及超强的兼容特性,是浸没式液冷技术 的主要媒介。
液冷市场需求保持逐年增长状态,冷板式液冷和浸没式液冷是行业内目前共存的两条主流 技术路线;伴随国家双碳节能政策驱动,市场对液冷的需求将逐步提升。考虑到技术成熟 度、可靠性、技术通用性、结构颠覆性等多个方面,当前液冷数据中心仍以冷板式液冷占 据主流地位。
4.3 多样化新兴技术带动中国智能算力规模高速增长
我国大型及以上数据中心机架规模增长迅速,近年来我国数据中心机架规模稳步增长,按 照标准机架 2.5kW 统计,截至 2021 年底,我国在用数据中心机架规模达 520 万架,近 五年 CAGR 超 30%,其中大型及以上机架规模 420 万架,占比 80%。我国数据中心主要 以通用算力为主,随着 AI、边缘计算需求的提升,超算、智算数据中心数量有待增长。 当前通用算力机架规模占比超过 90%,超算中心主要应用于国家科研,商业场景较少; 智算中心逐步从早期实验探索走向商业试点,随着人工智能应用场景的丰富,预期规模增 速将达到 70%。
4.4 大模型训练+推理驱动液冷市场总量增加和边际增速提升
训练阶段:根据 OpenAI 团队发表于 2020 年的论文《Language Models are Few-Shot Learners》,训练 1 次 1746 亿参数的 GPT-3 模型需要的算力约为 3640 Petaflop/s-day, 假设当前大模型每次训练需要一个月的时间,则对应算力需求为 121petaflops。随着模型 参数增加和训练时间缩短,远期算力需求会有明显增长。AI 训练芯片参考英伟达 A100 参数,算力 15.67TFlops,有效算力约为 30%。 推理阶段:与用户活跃数、提问字数等参数有关。此处不考虑峰值,假设访问需求平均分 配在全天各个时段。随着 AI 应用深化,用户活跃数、模型参数会呈现明显增长,此外访 问时延降低。AI 推理芯片参考英伟达 T4 参数,算力 8TFlops,假设有效算力利用率 30%。
计算结果表明,一个设计容量为 5MW、单机柜功率密度 20kW 的数据中心前期建设成本 为 20 元/W,其中制冷系统占比为 35%,对应冷板式液冷成本在 7108 元/kW。浸没式液 冷所需要的绝缘冷却液成本较高,我们预计其成本在 25000 元/kW。
当前冷板式液冷技术成熟度较高,在液冷技术路线中处于主流,假设当前占比为 80%。 未来随着浸没式液冷技术成熟及,整体占比有望逐步提升。综合测算,AI 大模型训练+推 理会带来 40 亿元的液冷市场空间,随着模型参数增加、使用推广,未来四年带来液冷市 场 60%+年复合增速。
五、光芯片/光模块:ChatGPT 大幅提振算力需求,带动通信产品量价齐升
5.1 光芯片:数通和电信市场水大鱼大,光芯片国产替代空间广阔
受益于全球数据量快速增长,光通信逐渐崛起。在全球信息和数据互联快速成长的背景下, 终端产生的数据量每隔几年就实现翻倍增长,当前的基础电子通讯架构渐渐无法满足海量 数据的传输需求,光电信息技术逐步崛起。光通信是以光信号为信息载体,以光纤作为传 输介质,光芯片实现电光转换,将信息以光信号的形式进行信息传输的系统。光通信传输 过程中,发射端将电信号转换成激光信号,然后调制激光器发出的激光束,通过光纤传递, 在接收端接收到激光信号后再将其转化为电信号,经调制解调后变为信息,其中需要光芯 片来实现电信号和光信号之间的相互转换,光芯片是光电技术产品的核心,广泛应用于 5G 前传、光接入网络、城域网和数据中心等场景,处于光通信领域的金字塔尖。光芯片 可以进一步组装加工成光电子器件,再集成到光通信设备的收发模块实现广泛应用。
光芯片按功能可以分为激光器芯片和探测器芯片。激光器芯片主要用于发射信号,将电信 号转化为光信号,探测器芯片主要用于接收信号,将光信号转化为电信号。激光器芯片根 据谐振腔制造工艺的不同可分为边发射激光芯片(EEL)和面发射激光芯片(VCSEL)。 边发射激光器芯片是在芯片的两侧镀光学膜形成谐振腔,沿平行于衬底表面发射激光,而 面发射激光器芯片是在芯片的上下两面镀光学膜,形成谐振腔,由于光学谐振腔与衬底垂 直,能够实现垂直于芯片表面发射激光。面发射激光器芯片有低阈值电流、稳定单波长工 作、可高频调制、容易二维集成、没有腔面阈值损伤、制造成本低等优点,但输出功率及 电光效率较边发射激光芯片低。面发射芯片包括 VCSEL 芯片,边发射芯片包括 FP、DFB和 EML 芯片;探测器芯片主要包括 PIN 和 APD 两类。
需求端,数据中心和电信双轮驱动,预计 2027年全球光模块市场规模超200亿美元,22-27 年 CAGR 达 11%。随着光电子、云计算技术等不断成熟,更多终端应用需求不断涌现, 并对通信技术提出更高的要求。受益于全球数据中心、光纤宽带接入以及 5G 通讯的持续 发展,光模块作为光通信产业链最为重要的器件保持持续增长。根据 LightCounting 的数 据,2027 年全球光模块市场规模预计将超过 200 亿美元,22-27 年 CAGR 达 11%。
供给端,海外光芯片厂商具备先发优势,国内厂商乘国产替代东风正迎头赶上。我国光 芯片产业参与者主要包括海外头部光通信厂商、国内专业光芯片厂商及国内综合光芯片模 块厂商。1)海外头部光通信厂商:三菱电机、住友电工、马科姆(MACOM)、朗美通 (Lumentum)、应用光电(AOI)、博通(Broadcom)等;2)国内专业光芯片厂商: 源杰科技、武汉敏芯、中科光芯、雷光科技、光安伦、云岭光电等;3)国内综合光芯片 模块厂商或拥有独立光芯片业务板块厂商:光迅科技、海信宽带、索尔思、三安光电、仕 佳光子等。从竞争格局和产品布局看,以住友电工、马科姆(MACOM)、博通(Broadcom) 为代表的欧美日综合光通信企业在高速率光芯片市场占据主导地位,而中国厂商在中低速 率芯片市场占据优势,国产化率较高,但高速光芯片仍存在差距。
5.2 光模块:英伟达 NVLink 与网络架构升级,带动光模块向高速率趋势演进
DGX SuperPOD 有四个网络:计算网络,通过 8 个 200Gb/s 单端口连接每个 DGX A100 系统;存储网络,使用来自 CPU 连接的两个端口;带内管理网络,使用 DGX A100 系统 上的两个 100 Gbps 端口连接到专用以太网交换机;带外管理网络,将每个 DGX A100 系统的基板管理控制器(BMC)端口连接到附加的以太网交换机。总结来看,共有 8 个 200G 单端口和两个 100G 双端口。
NVLink 实现服务器集群中每个 GPU 之间的高速无缝通信,将 AI 训练时间由数月缩短至 数天或数小时。过去的 PCIe 带宽有限,成为限制高速通信的瓶颈所在。NVLink 是 NVIDIA 的高带宽、高效能、低延迟、无丢失的 GPU 与 GPU 互连。从 16 年至 22 年,NVLink 经历四轮迭代,第四代 NVIDIA® NVLink®技术可为多 GPU 系统配置提供高于以往 1.5 倍的带宽,以及增强的可扩展性。单个 NVIDIA H100 Tensor Core GPU 支持多达 18 个 NVLink 连接,总带宽为 900 GB/s,是 PCIe 5.0 带宽的 7 倍。第三代 NVSwitch 技术在 节点内外提供交换机,可连接多个服务器、集群和数据中心中的 GPU。每个节点内的 NVSwitch 提供 64 个第四代 NVLink 链接,以加速多 GPU 连接。
H100 采用第四代 NVLink,增加内部 GPU 互联的光模块需求数量。H100 GPU 中应用了 新的第四代 NVLink,与 A100 中使用的第三代 NVLink 相比,提供了 1.5 倍的通信带宽。 所需的 NVSwitch 节点也由 6 个减至 4 个。新的 NVLink 在多 GPU I/O 和共享内存访问中 的总带宽达到 900 GB/sec,比 PCIe Gen 5 的带宽高 7 倍。第三代 A100 GPU 中使用的 NVLink 在每个方向上使用四个差分对(4 条通道)来创建单个链接,每个方向提供 25 GB/sec 有效带宽;而第四代 NVLink 在每个方向上只使用两个高速差分对来形成单个链 接,每个方向也提供 25 GB/sec 有效带宽。H100 包括 18 个第四代 NVLink 链接,提供 900 GB/sec 的总带宽,而 A100 包括 12 个第三代 NVLink 链接,提供 600 GB/sec 的总 带宽。根据 DGX H100 服务器参数文档,H100 内部需要八个 400g 光模块用于 GPU 与 CPU 的连接,未来仍有向 800G 升级的趋势。
H100 接入 NVLink 交换机系统采用英伟达 OSFP 连接,增加四通道光模块需求。H100 引入可扩展的 NVLink 版本,可连接 32 个计算节点,在 256 个 GPU 之间进行通信。结 合新的 NVLink 网络技术和第三代 NVSwitch,英伟达构建大规模的 NVLink 交换机系统网 络,采用 2:1 锥形胖树拓扑结构,通过 NVLink 交换机模块中包含的第二级 NVSwitch 将 GPU 节点连接。交换机系统支持最多 256 个 GPU,并提供 57.6 TB/s 的全互联带宽。
DGX除内部8个400G光模块外,外部仍有四个400G端口。DGX H100 仍沿用SuperPOD 架构,其中计算基础架构用于计算节点间通信、单独的存储网络用于隔离存储流量、另外 两个以太网架构用于带内和带外管理。中间 4 个 0SFP 端口,对应内部 8 个 400G 单端口, 同时在外部需要使用两个 400G 双端口收发器来访问所有八个 GPU。此外仍需要两组带 内以太网管理和 InfiniBand 存储端口为 DGX H100 系统提供并行路径。
流量传输模型改变下叶脊式网络架构兴起,光模块需求进一步增长。随着 IT 架构进入云 计算时代,传统数据向云数据中心转型,传统三层式网络架构在云数据中心的效率较低, 流量处理需要经过多层交换机,时延较长且不可预测,无法满足大数据等业务的需求。三 层式网络架构基于南北向流量传输模型设计,由核心层、汇聚层以及接入层构成,主要满 足外部对数据中心的访问。随着东西向流量增加,三层式网络架构服务器之间通信无法平 行进行,数据在接入层和汇聚层之间频繁交换,造成上层核心交换机和汇聚交换机架构的 巨大负载。 叶脊式网络架构更加扁平化,扩大接入层和汇聚层,网络效率提高,特别是高性能计算集 群或高频流量通信设备的互联网络。但随着叶脊式网络架构普及发展,单机柜配备的光模 块数量显著增加,传统三层式架构光模块相对机柜的倍数为 8.8,叶脊式架构光模块相对 机柜的倍数达 46 倍。
英伟达 AI 数据中心采用与叶脊式相近的胖树(fat-tree)网络架构。传统的树形网络拓扑 中,带宽是逐层收敛的,树根处的网络带宽要远小于各个叶子处所有带宽的总和。Fat-Tree 是无带宽收敛的,其中每个节点上行带宽和下行带宽相等,并且每个节点都要提供对接入 带宽的线速转发的能力。Fat-Tree 网络中交换机与服务器的比值较大,同时也增加了对光 模块的需求。
参考127个节点DGX SuperPOD的计算网络架构,每个服务器网络端口与叶交换机相连, 再与上层脊交换机相连。对于 127 个节点的集群计算,共需要 32 个叶交换机和 16 个脊 交换机,每组 32 个节点是轨道对齐的,节点之间或轨道之间的流量通过脊层进行传输。 相比于传统数据中心的带宽逐层收敛,英伟达 AI 数据中心无阻塞网络对于高速率光模块 有更高的需求。
中际旭创海外高端产品上量, 高毛利产品改善毛利率。公司目前布局 800G OSFP 和 800G QSFP-DD,根据投资者互 动披露,800G 光模块已实现量产出货,且在持续上量。22 年光模块收入 94 亿元,同比 增长 29.6%,高端产品占比增加带动毛利率逐季提升,23 年一季度即使营收下滑 12%, 利润仍超预期同比增长 15%,实现毛利率和净利率分别为 29.6%/13.3%,同比大幅提升 3.3PP/3.0PP。公司持续加大对新方向、新产品的研发布局,800G 和相干系列产品等已 实现批量出货,1.6T 光模块和 800G 硅光模块已开发成功并进入送测阶段,CPO(光电 共封)技术和 3D 封装技术也在持续研发进程中。海外泰国工厂也完成量产前的准备, 将按计划量产出货 400G 和 800G 等产品。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
关键词:
责任编辑:Rex_15