当地时间 4 月 9 日,在 “Google Cloud Next 25” 大会上,谷歌正式推出了首款 AI 推理特化版 TPU 芯片,代号为 “Ironwood”,也就是 TPU v7 。该芯片专为深度思考模型打造,性能实现了巨大飞跃。
TPU v7 的 FP8 峰值算力高达 4614TFlops,相较于 2017 年的第二代 TPU,性能提升了 3600 倍,对比 2023 年的第五代 TPU 也有 10 倍的增长。其在扩展性方面表现突出,最高配集群可配备 9216 个液冷芯片,峰值算力达到惊人的 42.5 ExaFlops,即每秒能够运算 42500000000000000000 次,是目前全球最强超级计算机 EL Capitan 的 24 倍 。
当前,AI 正从响应式向主动生成洞察和解读转变。以 DeepSeek-R1 和谷歌 Gemini Thinking 为代表的深度思考推理模型,多采用 MoE(混合专家)架构。这类架构虽激活参数量相对较少,但总参数量巨大,对大规模并行处理和高效内存访问需求迫切,单个芯片难以满足其计算需求。TPU v7 正是基于此设计,在执行大规模张量操作时,最大程度减少芯片上的数据移动和延迟。与上一代 TPU v6 相比,TPU v7 的高带宽内存 (HBM) 容量提升至 192GB,为上一代的 6 倍,单芯片内存带宽也提高到 7.2 TBps,是上一代的 4.5 倍。同时,TPU v7 系统具备低延迟、高带宽的 ICI(芯片间通信)网络,双向带宽提升至 1.2 Tbps,为上一代的 1.5 倍,且每瓦性能是上一代的两倍 。
在硬件升级的基础上,TPU v7 还在软硬协同方面进行了优化。它配备了增强版 SparseCore,用于处理高级排序和推荐工作负载中常见的超大嵌入。并且支持 Google DeepMind 开发的机器学习运行时 Pathways,可跨多个 TPU 芯片实现高效分布式计算 。
(完)