首页 › 世界最快

曝GPT-5.5用上“全球最快芯片”，Claude慌了

发布者：鼓捣么宁 2026-5-23 10:14

120B模型飙到2000 token/秒，CFO更放话已在跑GPT-5.5！Cerebras 560亿美元IPO首日暴涨68%，但SemiAnalysis万字拆解直指死穴。

SemiAnalysis，硅谷最硬核的芯片分析机构，4月份光是AI工具的订阅费就烧到了年化1000万美元。

其中80%花在同一个地方，Anthropic的Opus 4.6 fast模式。

它比标准模式贵6倍，但token输出速度快2.5倍！

然后Opus 4.7来了。更聪明，跑分全面碾压上一代，但工程师集体拒绝升级。

理由只有一个，4.7没有fast模式。

他们宁可用更笨的模型，也要更快的token！

而这个趋势的最大受益者，是一家刚刚以560亿美元估值登陆纳斯达克的芯片公司，Cerebras。

2000 token/秒，怎么来的

OpenAI今年2月甩出了GPT-5.3-Codex-Spark。

名字挂着GPT-5.3的招牌，但底层是一个从完整版GPT-5.3 Codex蒸馏出来的小模型，参数量只有原版的十分之一，120B。

虽然是用智能换来的，但速度确实夸张到离谱——2000 token/秒。

作为对比，Anthropic最快的Opus 4.6 fast大约70-100 token/秒，GPT-5系列在英伟达GPU上是大约130 token/秒。

而Codex-Spark一脚油门踩到了一个数量级开外。

让它跑这么快的，正是Cerebras的WSE-3，一块餐盘大小的晶圆级芯片。

这件事直接引爆了一笔246亿美元的合同，也把Cerebras一路推进了纳斯达克。5月14日首日暴涨68%，2026年至今最大科技IPO。

但Cerebras CFO Bob Komin说，这还只是开胃菜。

IPO前夜，他在采访中亮了一张没人预料到的牌——

我们服务所有模型，对模型大小没有限制。今天，我们正在跑万亿参数的模型。我们正在跑OpenAI内部的GPT-5.4和GPT-5.5。

如果这是真的，Cerebras就不只是一个「小模型快跑」的玩家了，IPO当天的疯狂涨幅立刻站得住脚。

但SemiAnalysis偏偏在同一周甩出了一篇两万字的技术拆解报告，直接把这个故事撕开了一道口子。

Cerebras公开云上，最大的生产模型是GPT-OSS，总参数120B；预览模型最大355B。曾经上过的Llama 70B和405B，后来也被悄悄下了架。

2025年最火，但体量也更大的开源模型（比如DeepSeek），从头到尾就没出现在Cerebras Cloud上。

CFO口中的那个数字，目前只存在于「OpenAI内部」，外界无法验证。

要搞清楚这中间的裂缝有多大，得先看看这块晶圆到底是怎么回事。

一整块硅的赌注

半导体行业干了50年的事情就是切硅片。

一整块晶圆刻出几十颗芯片，切割，封装，各干各的。英伟达的B300已经把单颗芯片撑到了858平方毫米，基本上是光刻的极限了。

相比之下，Cerebras却反其道而行——它不切。

整块晶圆就是一颗芯片。

46,225平方毫米，比英伟达的GPU大58倍，大约一个餐盘的尺寸。上面集成了4万亿个晶体管、90万个计算核心，和44GB的SRAM内存。

重点来了，SRAM。

GPU用的是HBM（高带宽内存），容量大但速度相对慢。一块B300配了288GB的HBM，带宽在TB/秒级别。

WSE-3只有44GB的SRAM，但内存带宽高达21PB/秒。

Cerebras速度碾压的秘密就在这里。

SRAM带宽大到解码时几乎可以把全部计算核心喂饱。GPU的计算核心只能饿着等内存。

而推理的瓶颈，正是解码。

模型一个token一个token往外吐的时候，每吐一个就要把全部权重从内存里读一遍。带宽越高，读得越快，token出得越快。

SemiAnalysis做了一个很直观的对比。

同样只给一个用户生成token的场景下，GPU能实际利用的算力只有理论峰值的零头。WSE-3理论上可以把全部15.6 PFLOPS的FP16算力吃满。

差距不是百分之几十，而是数量级的。

用他们的原话形容，这就像是公交车和F1的区别。

GPU是公交车，一次拉很多人但每个人都慢。WSE-3是F1赛车，一次只拉一个人但飞快。

想用赛车的客户，甚至愿意付6倍价格来买速度。Opus 4.6 fast已经证明了这一点。

但这辆「车」有一个致命问题——它的「油箱」只有44升。

对于小模型来说，WSE-3的44GB SRAM绰绰有余，但放到今天的大模型面前根本不够看。

DeepSeek V4有1.6万亿参数，即使用最激进的压缩方式（FP8量化），光权重就要490GB。一块WSE-3装不下，要切成至少12块塞进12块晶圆。

分布就要通信，而这也是Cerebras最致命的短板。

每块WSE-3对外带宽只有150GB/秒。

英伟达一块Blackwell GPU通过NVLink5能跑到900GB/秒，是Cerebras的6倍。被英伟达收购的Groq更夸张，单颗LPU3就有9.6Tb/秒，8倍。

带宽加不了。这是物理层面的死结。

WSE-3的制造方式决定了一切。整块晶圆用同一套模板反复曝光，12列7行，84个完全相同的die拼成一颗芯片。

想加高速通信端口（SerDes），就得在每个die里都加。但84个die里只有边缘的能接到外面，中间的全是摆设，纯粹浪费硅面积。

更要命的是，SerDes是模拟电路，面积大，还会干扰旁边的数字逻辑。在die中间放SerDes，等于在自家的高速公路上挖坑。

所以Cerebras被困在了一个岛屿上。岛上的高速公路四通八达，但通往外界的桥只有一座单车道。

如此一来，Cerebras跑大模型只剩一条路，把模型按层切开，每块晶圆放几层，晶圆之间只传中间计算结果（比完整的模型权重小得多）。

但流水线越长，延迟越高。

SemiAnalysis算了一笔账，12块晶圆跑DeepSeek V4，光是层间传输的固定延迟就要叠加12次，缓存数据的搬运时间高达数毫秒。

所以CFO在CNBC上说的那番话，至少目前更像是路线图上的故事。

但在120B以下这个区间，Cerebras交出的成绩单没什么好挑的。

代价是什么呢

知名评测机构Artificial Analysis用Llama 4 Maverick做过实测，Cerebras 2400 token/秒，英伟达Blackwell 1040 token/秒，直接碾了一倍多。

AI编程工具Devin背后的Cognition已经把Cerebras接进了产品，快速模式下1000 token/秒。Notion、LiveKit、GSK等也已经在用。

但代价是，公开云跑得动的上限就是GPT-OSS级别，最大上下文只有128K。

根据SemiAnalysis从Claude Code、Cursor等工具中采集的43.2万条真实请求，其中有将近50%都超过了128K。

而Agent时代的上下文只会越来越长，128K很快就是瓶颈。

速度快，但模型小、上下文短、选择少。这就是开发者今天拿到手的Cerebras。

但这里藏着一个很多人还没注意到的细节，足以改变整个竞争格局。

Cerebras与OpenAI的协议里写着一条排他条款，合同期内不得向「特定OpenAI竞争对手」出售产品。

CEO Feldman没有点名，但所有人都知道指的是谁，Anthropic。

12%股权、10亿美元贷款、246亿美元订单锁定。Cerebras已经被牢牢绑在了OpenAI的战车上。

推理战争，OpenAI刚刚换了一把枪

如今，AI军备竞赛的主战场已经变了。

训练只做一次，推理每天做数十亿次。

2026年三分之二的AI算力消耗在推理上，到2027年预计达到80%。

根据OpenAI的计划，AWS的Trainium负责理解用户输入，Cerebras负责生成输出token，GPU负责训练和长上下文，三套硬件各管一段。这套组合拳只为一件事，成本打下来，速度拉上去。

对比之下，Opus 4.6 fast的速度已经从100 token/秒退化到了70 token/秒，Cerebras也在合同里把它锁在了门外。

那么问题来了，Anthropic的极速推理方案在哪里？

参考资料：

https://x.com/dee_bosa/status/2055351401472020949?s=20

https://newsletter.semianalysis.com/p/cerebras-faster-tokens-please

本文来自微信公众号“新智元”，作者：ASI启示录，36氪经授权发布。

GPU 英伟达技术 Spark 克劳迪首次公开募股

上一篇：德媒记者走访“全球最快高科技基地”

下一篇：全球最快光模块亮相，头部企业争先抢占技术高地

大家都在看

近3.6米/秒！它是世界最快蜘蛛一项关于蛛形纲动物奔跑能力的全球研究显示，在澳大利亚昆士兰州发现的一只猎人蛛以近3.6米/秒的最高速度荣膺“世界最快蜘蛛”称号。6月15日，相关研究成果公布于预印本平台Biorxiv。一只正在进行速度测试的丛林猎蛛 ... 世界最快07-07
苏联阿尔法级核动力“赛艇”：世界上速度最快的攻击型核潜艇苏联阿尔法级核动力“赛艇”：世界上速度最快的攻击型核潜艇阿尔法级（苏联称为705型“天琴座”，俄语：Лира，意为“竖琴”；北约代号：Alfa）是苏联海军于1971年至1990年代初、随后在俄罗斯海军服役至1996年的 ... 世界最快07-04
世界最快高铁跑出中国创新加速度，链博会尽显产业链硬核实力速度。家人们，世界最快高铁跑出中国创新加速度，狠狠的震惊了外媒。第四届链博会迎来开展第三天，会场各项活动火热推进，十场新品首发，三场重磅主题交流轮番登场，海内外参展企业接连签下合作硕果，充分印证全球企 ... 世界最快07-04
世界上速度最快的战术发射在17小时内将军用航天器送入轨道美国科技媒体interestingengineering报道，2026年6月19日，美国太空军拨出一通电话。16小时42分钟后，一枚火箭划破新西兰夜空，将一颗军用航天器精准送入近地轨道。这不是科幻小说里的情节，而是火箭实验室（Rocket ... 世界最快07-04
全球最快的乐高积木车 LEGO与超跑品牌Koenigsegg再度携手合作，为庆祝全新LEGO Technic Koenigsegg Sadair’s Spear模型上市，特别打造了一辆全尺寸、可实际行驶的积木版Sadair’s Spear，并在英国古德伍德爬坡赛道以约111km/h的成绩刷新 ... 世界最快07-04
中国高铁速度，全球最快高铁，震撼科技！世界最快高铁跑出中国创新加速度。谁能想到如今领跑全球的中国高铁几十年前还只能仰望国外技术，而现在中国造出全球最快高铁彻底刷新世界纪录，惊艳全球。这就是硬核国货CR450动车组，实测跑出单列453公里，交会896 ... 世界最快07-04
世界最快高铁，跑的是中国的创新加速度 CR450动车组样车2024年12月发布，试验时速450公里，运营时速400公里，将成为全球最快的高铁列车。很多人看到这个新闻，第一反应不是"技术多牛"，而是"到老家要几小时"。快，是让人想回去高铁从20 ... 世界最快07-04
中国第一！全球最快超级计算机诞生，美国保持两年的纪录被打破如果有人问，当今世界最激烈的科技竞争是什么？很多人会想到AI、大模型、芯片。但真正决定这些技术上限的，其实还有一个隐藏在幕后的角色——超级计算机。最近，全球超级计算机排行榜TOP500公布了第67期榜单，一个消 ... 世界最快07-03
世界倒退最快的国家：从全球第六到一贫如洗，仅用了短短五年！非洲大陆最南端的那片土地，曾让无数欧洲投资者趋之若鹜。上世纪七十年代的约翰内斯堡街头，摩天大楼林立，证券交易所灯火通明，那个时候的南非，被部分西方媒体形容为＂非洲的瑞士＂。然而进入二十一世纪后的二十多 ... 世界最快07-02
百公里加速0.4秒？“全球最快摩托车”到底快到什么程度如果你第一眼看到“百公里加速仅需0.4秒”这几个字，估计和我一样，脑子里冒出来的第一个想法不是“厉害”，而是：这是真的吗？因为这个数字实在太夸张了，夸张到什么程度呢？夸张到你可能还没来得及低头看一眼仪表 ... 世界最快07-02

相关文章

热门阅读

精选文章