谷歌拥有最好的闭源大模型,阿里拥有最好的开源大模型,而且谷歌和阿里都有自研芯片,这篇主要是对比一下谷歌、阿里使用自研芯片的算力中心成本,同使用英伟达H200的算力中心成本进行对比,这样大家才能直观的感受到为什么谷歌对于OpenAI和英伟达的固有联盟,构成了极其严峻的挑战,以及在与国外大模型、AI云的竞争中,阿里是有机会分一杯羹的。
| 维度 | 采用NVIDIA H200 的算力中心 | 采用阿里平头哥的算力中心 | 采用Google TPU v5p 的算力中心 |
| 角色定位 | “什么都能干”的雇佣兵 | “只会干一件事”的工匠 | “自产自销”的闭环帝国 |
| 芯片来源 | 购买 (被赚走巨额利润) | 自研 (主要省设计/品牌费) | 自研 (无中间商赚差价) |
| 硬件成本 | 极高 (含 NVIDIA 70% 毛利) | 极低 (BOM 成本价) | 中等 (BOM + 高昂的 HBM/CoWoS 成本) |
| 软件生态 | CUDA (全球通用) | 专有 API (极难迁移) | JAX/XLA (Google 内部生态) |
| 灵活性 | ⭐⭐⭐⭐⭐ (训练/推理/科学计算) | ⭐ (仅限特定推理) | ⭐⭐⭐ (专注 Transformer AI) |
三类算力中心的成本 (5年折旧,每小时成本)
我们假设阿里的算力中心是在国内,使用国内的电力。谷歌使用自己的TPU,第三个算力中心使用英伟达的H200芯片,同等吞吐量的 8 卡服务器集群(或 TPU Pod Slice)进行比较:
| 成本分项 (每小时) | 🇺🇸 H200 中心 | 🇨🇳 阿里平头哥 | 🇺🇸 Google TPU v5p | 备注与分析 |
| A. 硬件折旧(5年 CAPEX) | $7.99 | $1.37 | $3.50 | Google 自己造芯片,省去了 NVIDIA 的利润,但 HBM 和先进封装成本依然很高,且通常在美国组装。 |
| B. 电力成本*(德州 $0.05 vs 中国 $0.07)* | **$0.50** | $0.28 | $0.40 | TPU 采用脉动阵列 (Systolic Array) 架构,能效比高于 GPU,但略逊于功能更简单的阿里 ASIC。 |
| C. 运维/基建 | $4.00 | $1.20 | $3.50 | Google 的液冷和自动化运维极强(Jupiter 网络),略低于通用 H200 中心,但仍受美国人力成本影响。 |
| 每小时总成本 | $12.49 | $2.85 | $7.40 | TPU 的成本大约是 H200 的 60%。 |
TCO per 1000 Tokens (终极比拼)
假设都在运行 Transformer 架构模型(如 Llama 3 或 Gemini Pro),且都经过深度优化:
- 🇺🇸 NVIDIA H200:
- 成本:$12.49 / hr
- 单价:~$0.000165 / 1k tokens
- 评价:最贵,但它是硬通货,谁都能用。
- 🇨🇳 阿里平头哥 (ASIC):
- 成本:$2.85 / hr
- 单价:~$0.000038 / 1k tokens
- 评价:地板价。依靠中国供应链 + 牺牲灵活性换来的极致低价。
- 🇺🇸 Google TPU v5p:
- 成本:$7.40 / hr
- 吞吐量加成:TPU v5p 拥有极强的片间互联 (ICI),在大规模集群下效率高于 GPU。假设吞吐量比 H200 高 10%。
- 单价:~$0.000089 / 1k tokens
- 评价:最强平衡。比买 NVIDIA 便宜一半,性能却极强。
三种大模型厂商的竞争分析
可以清晰地看到全球算力的三个阶层:
1. Google TPU:自给自足的“贵族”
- 优势: Google 不需要让 NVIDIA 赚走那 70% 的毛利。因此,Gemini 模型的推理成本,天生就比使用 H100 的 OpenAI/Microsoft 低 40%-50%。
- 战略意义: 这就是为什么 Google 敢在 Search 里免费接入 AI,或者提供拥有 100万 Context Window 的 Gemini 1.5 Pro。因为它的自研TPU成本远低于去 依赖NVIDIA算力芯片的对手。
2. 阿里平头哥:降维打击的“刺客”
- 优势: 把 AI 算力变成了“水电煤”。在处理淘宝识图、安防监控、简单的客服对话时,这种方案是无敌的。
- 劣势: 技术孤岛。如果 Google 发明了新的 Transformer 架构,TPU 只要改改编译器就能跑,H200 更新驱动就能跑,但阿里的 ASIC 可能需要重新流片(耗时1-2年)。
3. NVIDIA H200:不可或缺的“军火商”
- 优势: 生态垄断。虽然贵,但除了 Google 这种巨头和阿里这种特定场景,世界上 99% 的公司(Tesla, xAI, Meta, 初创公司)只能买 H200。因为他们没有能力自研芯片,或者他们的业务太复杂,需要 CUDA 的通用性。
小结 1 TFLOPS (FP8) 的推理成本进行排名:
- 最贵: 🇺🇸 H200 算力中心 (买的是通用性和上市速度)
- 中间: 🇺🇸 Google TPU 中心 (买的是系统效率和规模红利) —— 成本约为 H200 的 50%
- 最便宜: 🇨🇳 阿里平头哥中心 (买的是专用性和供应链低价) —— 成本约为 H200 的 25%
这也解释了为什么 OpenAI (目前主要用 NVIDIA) 极其渴望自研芯片——他们不想再忍受比 Google 高出一倍的推理成本了。
参考scale law法则——当模型参数量、训练数据量和计算资源(FLOPs)按一定比例增加时,模型的性能(如损失函数值、准确率等)会以可预测的方式提升。
谷歌在训练数据方面是绝对的第一,30年的搜索引擎业务,积累了30年的互联网数据,以及谷歌学术的数据,都是优于其他竞争对手的。在算力层面,谷歌的TPU让竞争对手的算力成本比自己高几倍,同时谷歌还拥有全球最优秀的科学家,长期在科学理论层面的投入形成了了深厚的技术底蕴。
阿里在各方面都比谷歌弱一些,但在中文世界,特别是在墙内还是拥有领先于其他国内公司的优势的。特别是自研芯片极大的压低了推理成本,只要大的算法结构不发生变化,平头哥的芯片就不会出现迭代风险,在最近两三年应该看不到新的算法结构升级。
阿里的ASIC芯片会不会有升级风险?
阿里使用ASIC芯片,牺牲了芯片的灵活性换来极限的性价比和能耗比,但在目前的环境下其实也是个不错的选择。
因为目前大预言模型的性能瓶颈,70% 取决于数据质量,而不是模型架构。也就是说即使用最老旧的 Transformer 架构(全是标准的矩阵乘法,平头哥最喜欢的),只要你喂给它的数据是经过极度清洗的、合成的高质量数据,模型就会变强。
参考这次谷歌的Gemini3.0的模型优化策略,合成数据和隐形推理循环,都是对老芯片友好的。
首先谷歌使用了大量合成数据 (Synthetic Data)这是模型升级的重要抓手,即使用了大量 AI 生成的高质量数学和代码数据。这不需要新算子,只需要更聪明的“数据筛选策略”,阿里也在使用这种方法升级模型。
第二,谷歌在推理环节引入了隐形推理循环对模型准确度提高很多,这对于老芯片也是友好的。举个例子:
以前用户问:“9.11 和 9.9 谁大?“,模型立刻靠直觉答:“9.11”。(答错了)
现在用户问同样的问题,模型内部会把这个问题拆成一系列的数理逻辑(隐形推理循环)——
Step 1: 把数字拆解。
Step 2: 比较整数位。
Step 3: 比较小数位。
Step 4: 检查逻辑。
Output: “9.9 大”。
这种升级不需要新算子。它只是把已有的 Transformer 推理过程重复运行了 100 遍(CoT)。这对谷歌自己的TPU和阿里的平头哥芯片都非常友好,因为它本质上是用时间换智能。只要芯片能跑基础推理,跑慢点没关系,多跑一会儿就能得出绝顶聪明的答案。
最后,即使面对细微算法的升级,阿里的软硬协同也可以做到。
因为通义千问团队和平头哥团队是同一个公司的。当通义千问团队想升级模型时,平头哥团队会拿着芯片手册坐在对面说:“你要升级可以,但尽量复用目前的算子。如果你非要加个怪异的新算子,请提前半年告诉我,我去改编译器的底层驱动。”之后,阿里的软件团队会疯狂优化底层驱动。即使芯片硬件不支持某个新算子,他们也可以通过“数学等价变换”,把新算子拆解成 3 个旧算子的组合,让硬件继续跑。虽然效率亏一点,但不至于跑不了。
所以,回到本文的结论,谷歌是绝对王者,阿里凭借巨大的工程师红利,高质量数据红利,成本优势,也能在全球AI模型市场分一杯羹。
