曝GPT-5.5用上“全球最快芯片”,Claude慌了
120B模型飙到2000 token/秒,CFO更放话已在跑GPT-5.5!Cerebras 560亿美元IPO首日暴涨68%,但SemiAnalysis万字拆解直指死穴。
SemiAnalysis,硅谷最硬核的芯片分析机构,4月份光是AI工具的订阅费就烧到了年化1000万美元。
其中80%花在同一个地方,Anthropic的Opus 4.6 fast模式。
它比标准模式贵6倍,但token输出速度快2.5倍!

然后Opus 4.7来了。更聪明,跑分全面碾压上一代,但工程师集体拒绝升级。
理由只有一个,4.7没有fast模式。
他们宁可用更笨的模型,也要更快的token!

而这个趋势的最大受益者,是一家刚刚以560亿美元估值登陆纳斯达克的芯片公司,Cerebras。
2000 token/秒,怎么来的
OpenAI今年2月甩出了GPT-5.3-Codex-Spark。
名字挂着GPT-5.3的招牌,但底层是一个从完整版GPT-5.3 Codex蒸馏出来的小模型,参数量只有原版的十分之一,120B。
虽然是用智能换来的,但速度确实夸张到离谱——2000 token/秒。
作为对比,Anthropic最快的Opus 4.6 fast大约70-100 token/秒,GPT-5系列在英伟达GPU上是大约130 token/秒。
而Codex-Spark一脚油门踩到了一个数量级开外。

让它跑这么快的,正是Cerebras的WSE-3,一块餐盘大小的晶圆级芯片。
这件事直接引爆了一笔246亿美元的合同,也把Cerebras一路推进了纳斯达克。5月14日首日暴涨68%,2026年至今最大科技IPO。
但Cerebras CFO Bob Komin说,这还只是开胃菜。
IPO前夜,他在采访中亮了一张没人预料到的牌——
我们服务所有模型,对模型大小没有限制。今天,我们正在跑万亿参数的模型。我们正在跑OpenAI内部的GPT-5.4和GPT-5.5。
如果这是真的,Cerebras就不只是一个「小模型快跑」的玩家了,IPO当天的疯狂涨幅立刻站得住脚。

但SemiAnalysis偏偏在同一周甩出了一篇两万字的技术拆解报告,直接把这个故事撕开了一道口子。
Cerebras公开云上,最大的生产模型是GPT-OSS,总参数120B;预览模型最大355B。曾经上过的Llama 70B和405B,后来也被悄悄下了架。
2025年最火,但体量也更大的开源模型(比如DeepSeek),从头到尾就没出现在Cerebras Cloud上。

CFO口中的那个数字,目前只存在于「OpenAI内部」,外界无法验证。
要搞清楚这中间的裂缝有多大,得先看看这块晶圆到底是怎么回事。
一整块硅的赌注
半导体行业干了50年的事情就是切硅片。
一整块晶圆刻出几十颗芯片,切割,封装,各干各的。英伟达的B300已经把单颗芯片撑到了858平方毫米,基本上是光刻的极限了。
相比之下,Cerebras却反其道而行——它不切。
整块晶圆就是一颗芯片。
46,225平方毫米,比英伟达的GPU大58倍,大约一个餐盘的尺寸。上面集成了4万亿个晶体管、90万个计算核心,和44GB的SRAM内存。

重点来了,SRAM。
GPU用的是HBM(高带宽内存),容量大但速度相对慢。一块B300配了288GB的HBM,带宽在TB/秒级别。
WSE-3只有44GB的SRAM,但内存带宽高达21PB/秒。


Cerebras速度碾压的秘密就在这里。
SRAM带宽大到解码时几乎可以把全部计算核心喂饱。GPU的计算核心只能饿着等内存。
而推理的瓶颈,正是解码。
模型一个token一个token往外吐的时候,每吐一个就要把全部权重从内存里读一遍。带宽越高,读得越快,token出得越快。

SemiAnalysis做了一个很直观的对比。
同样只给一个用户生成token的场景下,GPU能实际利用的算力只有理论峰值的零头。WSE-3理论上可以把全部15.6 PFLOPS的FP16算力吃满。
差距不是百分之几十,而是数量级的。

用他们的原话形容,这就像是公交车和F1的区别。
GPU是公交车,一次拉很多人但每个人都慢。WSE-3是F1赛车,一次只拉一个人但飞快。
想用赛车的客户,甚至愿意付6倍价格来买速度。Opus 4.6 fast已经证明了这一点。
但这辆「车」有一个致命问题——它的「油箱」只有44升。

对于小模型来说,WSE-3的44GB SRAM绰绰有余,但放到今天的大模型面前根本不够看。
DeepSeek V4有1.6万亿参数,即使用最激进的压缩方式(FP8量化),光权重就要490GB。一块WSE-3装不下,要切成至少12块塞进12块晶圆。
分布就要通信,而这也是Cerebras最致命的短板。
每块WSE-3对外带宽只有150GB/秒。
英伟达一块Blackwell GPU通过NVLink5能跑到900GB/秒,是Cerebras的6倍。被英伟达收购的Groq更夸张,单颗LPU3就有9.6Tb/秒,8倍。

带宽加不了。这是物理层面的死结。
WSE-3的制造方式决定了一切。整块晶圆用同一套模板反复曝光,12列7行,84个完全相同的die拼成一颗芯片。
想加高速通信端口(SerDes),就得在每个die里都加。但84个die里只有边缘的能接到外面,中间的全是摆设,纯粹浪费硅面积。
更要命的是,SerDes是模拟电路,面积大,还会干扰旁边的数字逻辑。在die中间放SerDes,等于在自家的高速公路上挖坑。

所以Cerebras被困在了一个岛屿上。岛上的高速公路四通八达,但通往外界的桥只有一座单车道。
如此一来,Cerebras跑大模型只剩一条路,把模型按层切开,每块晶圆放几层,晶圆之间只传中间计算结果(比完整的模型权重小得多)。
但流水线越长,延迟越高。
SemiAnalysis算了一笔账,12块晶圆跑DeepSeek V4,光是层间传输的固定延迟就要叠加12次,缓存数据的搬运时间高达数毫秒。


所以CFO在CNBC上说的那番话,至少目前更像是路线图上的故事。
但在120B以下这个区间,Cerebras交出的成绩单没什么好挑的。
代价是什么呢
知名评测机构Artificial Analysis用Llama 4 Maverick做过实测,Cerebras 2400 token/秒,英伟达Blackwell 1040 token/秒,直接碾了一倍多。
AI编程工具Devin背后的Cognition已经把Cerebras接进了产品,快速模式下1000 token/秒。Notion、LiveKit、GSK等也已经在用。

但代价是,公开云跑得动的上限就是GPT-OSS级别,最大上下文只有128K。
根据SemiAnalysis从Claude Code、Cursor等工具中采集的43.2万条真实请求,其中有将近50%都超过了128K。
而Agent时代的上下文只会越来越长,128K很快就是瓶颈。

速度快,但模型小、上下文短、选择少。这就是开发者今天拿到手的Cerebras。
但这里藏着一个很多人还没注意到的细节,足以改变整个竞争格局。
Cerebras与OpenAI的协议里写着一条排他条款,合同期内不得向「特定OpenAI竞争对手」出售产品。
CEO Feldman没有点名,但所有人都知道指的是谁,Anthropic。
12%股权、10亿美元贷款、246亿美元订单锁定。Cerebras已经被牢牢绑在了OpenAI的战车上。
推理战争,OpenAI刚刚换了一把枪
如今,AI军备竞赛的主战场已经变了。
训练只做一次,推理每天做数十亿次。
2026年三分之二的AI算力消耗在推理上,到2027年预计达到80%。
根据OpenAI的计划,AWS的Trainium负责理解用户输入,Cerebras负责生成输出token,GPU负责训练和长上下文,三套硬件各管一段。这套组合拳只为一件事,成本打下来,速度拉上去。

对比之下,Opus 4.6 fast的速度已经从100 token/秒退化到了70 token/秒,Cerebras也在合同里把它锁在了门外。
那么问题来了,Anthropic的极速推理方案在哪里?
参考资料:
https://x.com/dee_bosa/status/2055351401472020949?s=20
https://newsletter.semianalysis.com/p/cerebras-faster-tokens-please
本文来自微信公众号“新智元”,作者:ASI启示录,36氪经授权发布。
大家都在看
-
曝GPT-5.5用上“全球最快芯片”,Claude慌了 120B模型飙到2000 token/秒,CFO更放话已在跑GPT-5.5!Cerebras 560亿美元IPO首日暴涨68%,但SemiAnalysis万字拆解直指死穴。SemiAnalysis,硅谷最硬核的芯片分析机构,4月份光是AI工具的订阅费就烧到了年化1000万美 ... 世界最快05-23
-
“九章四号”造出来了!速度比全球最快超算还要快10的54次方倍? 文:纵马封川编辑:离歌5月13日这个周三,国际顶级学术期刊《自然》杂志一篇论文刷屏了。中国人把"九章四号"造出来了!什么概念?25微秒对10的42次方年,比目前全球最快的超级计算机还要快10的54次方倍。25 ... 世界最快05-20
-
苏州小伙,全球爬得最快 5月10日2026年世界攀联攀岩世界杯(中国吴江汾湖)圆满落幕在当晚举行的男子速度赛决赛中苏州17岁小将赵一程在家乡父老的注视下斩获男子速度赛金牌上演了“12天两破世界纪录”的传奇时刻苏州选手赵一程(左)作为中 ... 世界最快05-15
-
“九章四号”造出来了,速度比全球最快超算还要快10的54次方倍 “九章四号”造出来了,助力我国再次站上量子计算之巅峰。据央视新闻5月13日报道,中国科学技术大学潘建伟、陆朝阳等团队联合多家机构,成功研制出九章四号可编程光量子计算原型机,一举刷新光量子计算全球纪录,科 ... 世界最快05-14
-
10年升0.56℃!报告警示:欧洲变暖最快,超全球平均速度两倍 如果说全球变暖是一场缓慢燃烧的大火,那么欧洲可能已经站在最靠近火焰的地方。最新发布的《2025年欧洲气候状况》报告表明,欧洲是全球变暖最快的大陆。不是最热的地方,却是升温速度最惊人的大陆之一。世界气象组织 ... 世界最快05-13
-
实现50分钟成渝通勤!“全球最快高铁”,要来了 据央视新闻报道被称作“全球最快高铁”的CR450动车组正在沪渝蓉高铁开展运用考核明年将会在成渝中线展开更接近运营条件的全面测试2021年,“十四五”规划102项重大项目之一的CR450科技创新工程启动,去年年底,CR450 ... 世界最快05-13
-
造车8个月,它带来了全球最快的车 中国正式成为了全球顶尖的汽车大国,随便一家企业入场造车都是手拿把掐,从宣布造车到实车发布,只需要8个月时间!放眼全球,有哪个品牌能如此“高效”?用火箭般的速度,打造了速度媲美火箭的超跑,实现这一壮举的 ... 世界最快05-04
-
世界上崛起速度最快的小国,从濒临亡国到区域霸主,只用了50年 从世界历史来看,大国的崛起那是屡见不鲜,而且世界历史的走势,本质上就是大国崛起的走势。所以世界权力本质上掌握在大国手中,小国处于被支配地位。而且在大国博弈中,往往当做炮灰的就是小国,最典型就是乌克兰。 ... 世界最快05-01
-
诺奖得主与沪上大中学生畅谈发明世界上“最快的相机” “阿秒是10的负18次方秒,而1阿秒是多快?”昨天(4月18日),第十四期“浦江科学大师讲坛”在复旦大学相辉堂举行。诺贝尔物理学奖得主、瑞典隆德大学教授、瑞典皇家科学院院士安妮·吕利耶,以“阿秒脉冲的探索之旅 ... 世界最快04-23
-
发明世界上“最快的相机”,诺奖得主复旦开讲! “阿秒是10的负18次方秒,而1阿秒是多快?”今天(4月18日)上午,第十四期“浦江科学大师讲坛”在复旦大学相辉堂举行。诺贝尔物理学奖得主、瑞典隆德大学教授、瑞典皇家科学院院士安妮·吕利耶(Anne L'Huillier) ... 世界最快04-19
相关文章
- 诺奖得主与沪上大中学生畅谈发明世界上“最快的相机”
- 发明世界上“最快的相机”,诺奖得主复旦开讲!
- 10个世界上最快的人造物,打破了物理限制,快到让你怀疑人生。
- 世界最快科学装置是什么
- 报告:中国成为世界上增绿最多最快的国家
- 本田翼在电视节目上坦白了洗澡时间 在场人员吃惊:“世界最快?”
- 速度达10米/秒 全球最快人形机器人Bolt正式发布
- 世界最快!时速800公里,在武汉!
- 世界上最快的人!奔跑时速48公里,比猎豹还快
- 两小时建交,全球最快,背后到底图啥?
- 全球最快高铁要来了,时速453公里刷新纪录,明年将开展全面测试
- 全球最快的 10 列超级列车:第一名时速 603 公里,比客机起飞还快 50%
- 时速800公里!世界最快!就在湖北
- 速度堪比“飞人”博尔特,全球跑得最快的人形机器人来了
- 全球“最快”人形机器人发布
- 全球最快人形机器人Bolt发布
- 世界上最快的速度,不是光,也不是电,究竟是什么呢?
- “全球最快高铁”就要来了
- 全球最快高铁要来了,中国高铁里程是其他国家总和的两倍
- 700 公里每小时,中国速度全球最快
热门阅读
-
世界最快的个人潜艇,数秒潜入100米 09-29
-
世界上最快的手指,一秒钟敲击琴键13次 10-12
-
世界上速度最快的卡车,能达到每小时644公里 10-28
-
世界上飞行最快的鸟,灵活的军舰鸟 04-26
