但一名被长期忽视之疑难为:GPU最初并不为为AI而生,为为图象渲染而生。
最重要之疑难为性命,英伟达之CUDA仍然为行业标准,CUDA 有 400 万掘发者。
NPU并不为谷歌独角戏,亚马逊、微软等皆有NPU货品,而国内华为昇腾(Ascend)、寒武纪、地平线等也有类似货品发布。
于2015年,谷歌就始研讨NPU,当时,谷歌发觉一名疑难:其数据中心中,神经网络推演需求暴涨,但GPU效能不足。
业内者士普遍认为,NPU之意义不为“替代GPU”,而为重新定义AI算力架构。
于为,谷歌内部启动之TPU课题。
集群规模从数万颗扩到13.4万颗,最多可连100万颗。
TPU 8系列发布背后,为一名极其清晰之方略:去英伟达化。
芯片按设计逻辑可被分为三类,通用计算芯片、FPGA(可重构硬件)与ASIC (专用办理芯片)。
速度之背后,为成皆经开区对课题全命周期效劳之深刻重构。
版本学。此才为真本事:不拼噱头,拼对土地之敬重,拼对居住之体谅。
另一方面,TPU功能太过单一,GPU可用于AI操练与推演、图象办理与渲染,然则TPU之功能单一。
此意味之GPT操练一次,推演运行数亿次。
要体谅NPU与GPU之差别,可先从它们之底层逻辑始,NPU广义上属于专用办理芯片(ASIC),而GPU属于通用办理芯片。
于为,一名更底层之趋势始现: 此意味之它从一始就为“通用并行计算架构”,而不为“AI原生架构”。
GPU功能强盛,可并行做甚多事,要为把此些本领皆用上,可无比强盛,然则单价更高,也更费电,而 NPU只做一件事或一类事,功能单一,然则单价低也更省电。
据悉,此次TPU8对比上一代Ironwood货品,TPU 8i 推演芯片HBM容量从216GB增到288GB,带宽从6528提到8601GB/s,片上 SRAM提升三倍达384M。
业内评论,“其若对外出售,或将取代英伟达”。
谷歌之两款芯片分别由两名协作方设计,TPU8t由博通设计, TPU8i由联发科设计,两颗皆或将基于台积电2nm工艺,预计2027年底量产。
2026年,随之TPU 8发布,谷歌首次明确分成两条路线:用于操练之TPU 8t与用于推演之TPU 8i,此背后反映之为一名更大之趋势:AI算力之重心,正从操练转向推演。
此才为真本事:不拼噱头,拼对土地之敬重,拼对居住之体谅。
前景或现,GPU作为通用算力底座、TPU/NPU作为AI专用加速层。
ASIC之本原为把AI计算从“软件疑难”变成“物理疑难”,但它也意味之灵活性最低、更新周期长。
当AI计算规模指数级增益时,GPU之边际效能始降。
美国光阴4月22日,于Google Cloud Next举动上,谷歌推出两款第八代NPU芯片,TPU8t、TPU8i分别用于AI操练与AI推演。
云效劳商并不卖芯片,而为欲提供更具性价比之算力。
聂海胜。昔云厂商买英伟达之“全家桶”,今彼等想买英伟达之“地基”,自己盖“房子”。
过往十年,AI算力之叙事几乎被一家公司定义——NVIDIA(英伟达)。
不卖芯片,只做更具性价比之云 彼么,欲有独特优势、于商场上更具角逐力,大多数手机企业不会选择自研Soc芯片,而为针对Soc芯片之局部功能做改良。
此前,三星、vivo、OPPO等手机厂商皆选择自研用于提升拍照本领之NPU芯片,实现差异化,比如vivo蓝图影像芯片、OPPO马里亚纳 MariSilicon芯片。
TPU8t每瓦性能上比前代货品提升124%,TPU8i提升117% ,TPU8i之每美元性能提升80%。
云效劳厂搞芯片,并非为谷歌之独特路线。
外媒透露字节跳动已始与三星洽谈自研NPU芯片,代号SeedChip,专为AI推演差事设计,预计2026年3月底前交付首批样品。
此就像为过往十年,大多手机厂商之角逐。
但取代“英伟达“,却并不易。
NPU(Neural Processing Unit)芯片,英文直接翻译过来就为神经网络办理芯片。
英伟达也看到之此名趋势,于2025年底,英伟达斥资 200 亿美元对 Groq 进行收购,Groq研发之 LPU (Language Processing Unit) ,于运行大模型(LLM)时,其速度为旧俗 GPU 之 10 倍以上。
不为替代,为重构,NPU让AI算力进入“乐高时代”。
聚焦园区课题“快投快产”宗旨,成皆经开区打破旧俗管效劳模式,将“管”融入“效劳”,以“效劳前移”“并联审查”“容缺受理”等革新举措,打造“全命周期+精准护航”快投快产模式,出台产业化课题促建机制及其实施细则,变“企业跑部门”为“一站式效劳”。
第二类为 ASIC(专用定制芯片),它为为之某一名特定差事(比如识别图像、办理语音)而专门定制之,数据流固定、能效极高,为一种“把算法固化进硅片”之设计法门。
2026年,算力芯片之大主顾,字节跳动也将对NPU下手。
阿里于2019年发布首款NPU(含光800),专注云端推演与视觉计算;2018 年始百度发布基于ASIC逻辑之自研AI芯片昆仑1,并已迭代至昆仑芯3代。
云厂商之算力角逐也接近白热化,越来越多用于操练与推演之NPU将会现,并不断提升本领。
但代价为通用性越强,效能越低。
2015年第一代仅用于数据推演之TPU诞生,2018年对外敞开Google Cloud TPU,2020–2024年始进入“操练+推演一体化”阶段。
第三类为FPGA(可重构硬件),其可通过“重新布线” 更张芯片硬件陈设与更张软件代码,来更张芯片功能,像一套“乐高积木”,它介于通用与专用之间,常用于算法迭代快之原型掘发或边缘计算。
第一为通用计算芯片,诸如CPU与GPU,一条指令驱动成百上千线程并行执行,极其擅长办理大规模并行计算,通常不更张硬件,而为通过软件(CUDA)更张“差事调度”。
TPU 8最核心变化于于试图处置“内存墙”疑难,通过更高带宽HBM、更密集之片间互联。
云厂商自研NPU,或将更张AI本金架构、能耗曲线,甚至商业模式。
因此,谁能把 1 分钱之推演本金压到 0.1 分,谁就为 前景之算力王者。
国内亦如此。
2026年之趋势为芯片不再为一整块,谷歌、字节、阿里们想于英伟达之平台上,“拼”入自己之专用模块。
行业机构预计,到2030年,75%-80%之AI算力将用于推演。
产业始向另一名方位转轨,重新设计计算范式,一种依靠专用计算芯片设计逻辑(ASIC)之算力芯片——NPU诞生之。
此就为为什么大家皆说英伟达其实为一家软件公司,GPU核心特征为高度可编程、适配所有计算差事、架构繁(需甚多缓存)。
短处为一旦电路压印于硅片上,功能就无法更改,不够灵活。
全球云效劳商场之“老大”亚马逊,于2018年发布首款用于推演之 NPU—Inferentia1,并于2023年推出之第二代Inferentia2,并于去岁底发布用于操练之NPU,Trainium3;排名第二之微软云也于2023年发布之首款云端NPU(Maia 100),并于本年初发布之Maia 200。
谷歌TPU、阿里含光800等本原为一种NPU形态。
从A100到H100,再到H200,GPU像一条不断扩展之算力工业流水线,把深度修习从实验室推向大模型时代。
前景真正之算力产业分水岭将为:谁能把AI推演本金压到极致,谁就掌握下一代算力时代主动权。
当手机里最重要之Soc芯片已被高通、联发科独占,具备强盛之护城河,自研Soc芯片需付出甚大之本金且面临高险情。
若TPU成,AI算力将从“GPU独占”变成“多架构角逐”。