谷歌、阿里和英伟达系算力成本比较

谷歌拥有最好的闭源大模型,阿里拥有最好的开源大模型,而且谷歌和阿里都有自研芯片,这篇主要是对比一下谷歌、阿里使用自研芯片的算力中心成本,同使用英伟达H200的算力中心成本进行对比,这样大家才能直观的感受到为什么谷歌对于OpenAI和英伟达的固有联盟,构成了极其严峻的挑战,以及在与国外大模型、AI云的竞争中,阿里是有机会分一杯羹的。

维度采用NVIDIA H200 的算力中心采用阿里平头哥的算力中心采用Google TPU v5p 的算力中心
角色定位“什么都能干”的雇佣兵“只会干一件事”的工匠“自产自销”的闭环帝国
芯片来源购买 (被赚走巨额利润)自研 (主要省设计/品牌费)自研 (无中间商赚差价)
硬件成本极高 (含 NVIDIA 70% 毛利)极低 (BOM 成本价)中等 (BOM + 高昂的 HBM/CoWoS 成本)
软件生态CUDA (全球通用)专有 API (极难迁移)JAX/XLA (Google 内部生态)
灵活性⭐⭐⭐⭐⭐ (训练/推理/科学计算)⭐ (仅限特定推理)⭐⭐⭐ (专注 Transformer AI)

三类算力中心的成本 (5年折旧,每小时成本)

我们假设阿里的算力中心是在国内,使用国内的电力。谷歌使用自己的TPU,第三个算力中心使用英伟达的H200芯片,同等吞吐量的 8 卡服务器集群(或 TPU Pod Slice)进行比较:

成本分项 (每小时)🇺🇸 H200 中心🇨🇳 阿里平头哥🇺🇸 Google TPU v5p备注与分析
A. 硬件折旧(5年 CAPEX)$7.99$1.37$3.50Google 自己造芯片,省去了 NVIDIA 的利润,但 HBM 和先进封装成本依然很高,且通常在美国组装。
B. 电力成本*(德州 $0.05 vs 中国 $0.07)***$0.50**$0.28$0.40TPU 采用脉动阵列 (Systolic Array) 架构,能效比高于 GPU,但略逊于功能更简单的阿里 ASIC。
C. 运维/基建$4.00$1.20$3.50Google 的液冷和自动化运维极强(Jupiter 网络),略低于通用 H200 中心,但仍受美国人力成本影响。
每小时总成本$12.49$2.85$7.40TPU 的成本大约是 H200 的 60%。

TCO per 1000 Tokens (终极比拼)

假设都在运行 Transformer 架构模型(如 Llama 3 或 Gemini Pro),且都经过深度优化:

  • 🇺🇸 NVIDIA H200:
  • 成本:$12.49 / hr
  • 单价:~$0.000165 / 1k tokens
  • 评价:最贵,但它是硬通货,谁都能用。
  • 🇨🇳 阿里平头哥 (ASIC):
  • 成本:$2.85 / hr
  • 单价:~$0.000038 / 1k tokens
  • 评价:地板价。依靠中国供应链 + 牺牲灵活性换来的极致低价。
  • 🇺🇸 Google TPU v5p:
  • 成本:$7.40 / hr
  • 吞吐量加成:TPU v5p 拥有极强的片间互联 (ICI),在大规模集群下效率高于 GPU。假设吞吐量比 H200 高 10%。
  • 单价:~$0.000089 / 1k tokens
  • 评价:最强平衡。比买 NVIDIA 便宜一半,性能却极强。

三种大模型厂商的竞争分析

可以清晰地看到全球算力的三个阶层:

1. Google TPU:自给自足的“贵族”

  • 优势: Google 不需要让 NVIDIA 赚走那 70% 的毛利。因此,Gemini 模型的推理成本,天生就比使用 H100 的 OpenAI/Microsoft 低 40%-50%。
  • 战略意义: 这就是为什么 Google 敢在 Search 里免费接入 AI,或者提供拥有 100万 Context Window 的 Gemini 1.5 Pro。因为它的自研TPU成本远低于去 依赖NVIDIA算力芯片的对手。

2. 阿里平头哥:降维打击的“刺客”

  • 优势: 把 AI 算力变成了“水电煤”。在处理淘宝识图、安防监控、简单的客服对话时,这种方案是无敌的。
  • 劣势: 技术孤岛。如果 Google 发明了新的 Transformer 架构,TPU 只要改改编译器就能跑,H200 更新驱动就能跑,但阿里的 ASIC 可能需要重新流片(耗时1-2年)。

3. NVIDIA H200:不可或缺的“军火商”

  • 优势: 生态垄断。虽然贵,但除了 Google 这种巨头和阿里这种特定场景,世界上 99% 的公司(Tesla, xAI, Meta, 初创公司)只能买 H200。因为他们没有能力自研芯片,或者他们的业务太复杂,需要 CUDA 的通用性。

小结 1 TFLOPS (FP8) 的推理成本进行排名:

  1. 最贵: 🇺🇸 H200 算力中心 (买的是通用性和上市速度)
  2. 中间: 🇺🇸 Google TPU 中心 (买的是系统效率和规模红利) —— 成本约为 H200 的 50%
  3. 最便宜: 🇨🇳 阿里平头哥中心 (买的是专用性和供应链低价) —— 成本约为 H200 的 25%

这也解释了为什么 OpenAI (目前主要用 NVIDIA) 极其渴望自研芯片——他们不想再忍受比 Google 高出一倍的推理成本了。

参考scale law法则——当模型参数量、训练数据量和计算资源(FLOPs)按一定比例增加时,模型的性能(如损失函数值、准确率等)会以可预测的方式提升。

谷歌在训练数据方面是绝对的第一,30年的搜索引擎业务,积累了30年的互联网数据,以及谷歌学术的数据,都是优于其他竞争对手的。在算力层面,谷歌的TPU让竞争对手的算力成本比自己高几倍,同时谷歌还拥有全球最优秀的科学家,长期在科学理论层面的投入形成了了深厚的技术底蕴。

阿里在各方面都比谷歌弱一些,但在中文世界,特别是在墙内还是拥有领先于其他国内公司的优势的。特别是自研芯片极大的压低了推理成本,只要大的算法结构不发生变化,平头哥的芯片就不会出现迭代风险,在最近两三年应该看不到新的算法结构升级。

阿里的ASIC芯片会不会有升级风险?

阿里使用ASIC芯片,牺牲了芯片的灵活性换来极限的性价比和能耗比,但在目前的环境下其实也是个不错的选择。

因为目前大预言模型的性能瓶颈,70% 取决于数据质量,而不是模型架构。也就是说即使用最老旧的 Transformer 架构(全是标准的矩阵乘法,平头哥最喜欢的),只要你喂给它的数据是经过极度清洗的、合成的高质量数据,模型就会变强。

参考这次谷歌的Gemini3.0的模型优化策略,合成数据和隐形推理循环,都是对老芯片友好的。

首先谷歌使用了大量合成数据 (Synthetic Data)这是模型升级的重要抓手,即使用了大量 AI 生成的高质量数学和代码数据。这不需要新算子,只需要更聪明的“数据筛选策略”,阿里也在使用这种方法升级模型。

第二,谷歌在推理环节引入了隐形推理循环对模型准确度提高很多,这对于老芯片也是友好的。举个例子:

以前用户问:“9.11 和 9.9 谁大?“,模型立刻靠直觉答:“9.11”。(答错了)

现在用户问同样的问题,模型内部会把这个问题拆成一系列的数理逻辑(隐形推理循环)——

Step 1: 把数字拆解。

Step 2: 比较整数位。

Step 3: 比较小数位。

Step 4: 检查逻辑。

Output: “9.9 大”。

这种升级不需要新算子。它只是把已有的 Transformer 推理过程重复运行了 100 遍(CoT)。这对谷歌自己的TPU和阿里的平头哥芯片都非常友好,因为它本质上是用时间换智能。只要芯片能跑基础推理,跑慢点没关系,多跑一会儿就能得出绝顶聪明的答案。

最后,即使面对细微算法的升级,阿里的软硬协同也可以做到。

因为通义千问团队和平头哥团队是同一个公司的。当通义千问团队想升级模型时,平头哥团队会拿着芯片手册坐在对面说:“你要升级可以,但尽量复用目前的算子。如果你非要加个怪异的新算子,请提前半年告诉我,我去改编译器的底层驱动。”之后,阿里的软件团队会疯狂优化底层驱动。即使芯片硬件不支持某个新算子,他们也可以通过“数学等价变换”,把新算子拆解成 3 个旧算子的组合,让硬件继续跑。虽然效率亏一点,但不至于跑不了。

所以,回到本文的结论,谷歌是绝对王者,阿里凭借巨大的工程师红利,高质量数据红利,成本优势,也能在全球AI模型市场分一杯羹。