比GPU性价比高百倍!Cerebras推出AI推理服务,号称“全球最快”

编译 | Vendii
编辑 | 漠影
智东西8月28日消息,AI芯片独角兽Cerebras Systems于8月27日宣布推出AI推理服务Cerebras Inference,号称“全球最快”。该服务已经在云端上线。
据官网介绍,该推理服务在保证精度的同时,速度比英伟达的服务快20倍;其处理器内存带宽是英伟达的7000倍,而价格仅为GPU的1/5,性价比提高了100倍。Cerebras Inference还提供多个服务层次,包括免费、开发者和企业级,满足从小规模开发到大规模企业部署的不同需求。
用户可直接在官网上的交互界面进行体验,也可调用API。

体验地址:https://inference.cerebras.ai/
Cerebras Systems成立于2016年,团队由计算机架构师、计算机科学家、深度学习研究人员和各种工程师组成。该公司以其创新的晶圆级芯片(Wafer Scale Engine, WSE)而闻名,这些芯片专为AI计算而设计,具有巨大的尺寸和性能。
这家芯片独角兽曾经得到多个知名投资者的支持,其中包括OpenAI联合创始人Sam Altman、AMD前CTO Fred Weber等。截至2021年11月,该公司完成了2.5亿美元的F轮融资,估值达到40亿美元。
一、性价比远超英伟达:速度快20倍,价格仅为1/5
AI推理指的是在训练好一个AI模型之后,使用这个模型对新的数据进行预测或决策的过程。AI推理的性能和效率对于实时应用至关重要,例如自动驾驶汽车、实时翻译或在线客服聊天机器人等。Cerebras Inference(以下称作“Cerebras推理服务”)便是一个专注于AI推理的服务,以支持这些对实时性要求极高的应用场景。
Cerebras推理服务由Cerebras CS-3系统及其第三代晶圆级芯片(WSE-3)提供支持。WSE-3于3月发布,基于2021年推出的WSE-2芯片进行了改进。WSE-3内存带宽高达21PB/s,是英伟达H100 GPU的7000倍。这种超高的内存带宽可以大幅减少数据传输时间,提高模型推理的速度和效率。
据官网介绍,Cerebras推理服务针对Llama 3.1 8B模型每秒提供1800个tokens,每百万tokens的价格为10美分;针对Llama 3.1 70B模型每秒提供450个tokens,每百万tokens的价格为60美分。速度比基于英伟达GPU的超大规模云解决方案快20倍。

▲Cerebras推理服务与其他服务在Llama 3.1 8B上的速度比较。单位:tokens/秒/用户。(图源:Cerebras官网)

▲Cerebras推理服务与其他服务在Llama 3.1 70B上的速度比较。单位:tokens/秒/用户。(图源:Cerebras官网)
此外,Cerebras推理服务在整个推理过程中始终保持在16位精度域内,确保在提升速度的同时不会牺牲模型的精度。大语言模型质量评估公司Artificial Analysis的联合创始人兼CEO Micah Hill-Smith谈道,他的团队已经验证了Llama 3.1 8B和Llama 3.1 70B模型在Cerebras推理服务上运行的质量评估结果:与Meta官方版本的原生16位精度一致。
跟据官网,该服务运行Llama3.1的速度比基于英伟达GPU的解决方案快20倍,而提供服务的芯片WSE-3价格仅为GPU的1/5,相当于AI推理工作负载的性价比提高了100倍。
“在Artificial Analysis的AI推理基准测试中,Cerebras推理服务已经领先。Cerebras推理服务的速度比基于GPU的解决方案快一个数量级,打破了测试的纪录。”Micah Hill-Smith说,“凭借推动超高的性能速度和具有竞争力的定价,Cerebras推理服务对具有实时或高容量需求的AI应用开发者特别具有吸引力。”
二、清晰的分级访问制度,用户可免费体验
Cerebras推理服务根据用户需求和使用情况,提供了分级制度,分为三个层级:
1、免费层级:这一层级为所有登录用户提供免费的API访问权限以及相对宽松的使用限制。用户可以在这个层级中体验,无需支付费用。
2、开发者层级:这一层级专为灵活的无服务器部署设计,为用户提供一个API端点。相比于市场上的大多数方案,其成本要低得多。对于Llama 3.1 8B和Llama 3.1 70B模型,每百万tokens的价格分别是10美分和60美分。未来,Cerebras计划持续推出对更多模型的支持。
3、企业层级:这一层级提供经过微调的模型、定制的服务级别协议和专门的支持。它适合需要持续的工作负载。企业可以通过Cerebras管理的私有云或在企业的本地部署访问Cerebras推理服务。可按需求定价。
Cerebras推理服务的这种分级制度旨在满足从小规模开发到大规模企业部署的不同需求。
三、推动多方战略合作,构建AI开发一条龙服务
在推动AI开发的战略合作伙伴关系中,Cerebras Systems正与一系列行业领导者合作,共同构建AI应用的未来生态。这些公司在各自的领域内提供关键技术和服务,比如,Docker旨在利用容器化技术使AI应用部署更加便捷和一致,LangChain为语言模型应用提供快速开发框架,Weights&Biases打造了供AI开发者训练和微调模型的MLOps平台……
“LiveKit很高兴能与Cerebras合作,帮助开发者构建下一代多模态AI应用。结合Cerebras的计算能力和模型以及LiveKit的全球边缘网络,所开发的语音和视频AI应用将实现超低延迟并更接近人类特征。”LiveKit公司的CEO兼联合创始人Russell D’sa说道,该公司专注于构建和扩展语音和视频应用程序。
AI搜索引擎创企Perplexity的CTO兼联合创始人Denis Yarats认为,Cerebras推理服务可以帮助AI搜索引擎在用户交互方面实现突破,从而提高用户参与度。
结语:AI计算战事升温,高效推理成焦点
根据国际数据公司(IDC)的研究,AI推理芯片在2020年已经占据了中国数据中心市场的50%以上份额,并预计到2025年,这一比例将增长至60.8%。据英伟达2024财年数据中心的业绩会纪要,其公司该年度有超过40%的收入来自AI推理业务。可见,AI推理不仅在当前市场中占有相当比例,而且预计在未来几年将继续保持增长势头。
Cerebras凭借其超快的推理速度、优异的性价比和独特的硬件设计,将赋予开发者构建下一代AI应用的能力,这些应用将涉及复杂、多步骤的实时处理任务。
然而,在生态系统的成熟度、模型支持的广泛性以及市场认知度方面,英伟达仍然占据优势。相比于Cerebra,英伟达拥有更大的用户群体和更丰富的开发者工具和支持。此外,虽然Cerebras支持主流模型(如Llama 3.1),但英伟达的GPU支持的深度学习框架和模型范围更广。对于已经深度集成在英伟达生态系统中的用户,Cerebras可能在模型支持的广度和灵活性方面略显不足。
大家都在看
-
全球最快轰炸机:13000公里作战半径,美军为何害怕 说起轰炸机,大家可能最先想到的就是美国B-2轰炸机。作为世界上唯一一种隐身战略轰炸机,确实就是轰炸机中的明星。但是军事大国不止只有美国,俄罗斯也是军事大国。要问俄罗斯最先进的轰炸机,就不得不说图-160了。 ... 世界最快06-12
-
132GHz!中科院研制出世界最快硅-石墨烯-锗晶体管!!! 到底突破了什么?6月8日,中科院传来了一个振奋人心的好消息:我国科学家成功研制出了国际上首款硅-石墨烯-锗势垒晶体管,其截止频率达到了132GHz,创下了世界纪录。而且,这还远远不是终点。从理论上讲,这种新型晶 ... 世界最快06-10
-
全球最快!12.8T光模块亮相光博会 产业链预研加速 光通信圈热议“超级周期” 财联社5月20日讯(记者 付静)AI算力基建浪潮席卷全球,光通信正经历超级周期,其中最受关注的光模块可谓AI时代“数据血脉”。日前,财联社记者在武汉光谷举行的第二十一届“中国光谷”国际光电子博览会(以下简称“ ... 世界最快05-26
-
曝GPT-5.5用上“全球最快芯片”,Claude慌了 120B模型飙到2000 token/秒,CFO更放话已在跑GPT-5.5!Cerebras 560亿美元IPO首日暴涨68%,但SemiAnalysis万字拆解直指死穴。SemiAnalysis,硅谷最硬核的芯片分析机构,4月份光是AI工具的订阅费就烧到了年化1000万美 ... 世界最快05-23
-
“九章四号”造出来了!速度比全球最快超算还要快10的54次方倍? 文:纵马封川编辑:离歌5月13日这个周三,国际顶级学术期刊《自然》杂志一篇论文刷屏了。中国人把"九章四号"造出来了!什么概念?25微秒对10的42次方年,比目前全球最快的超级计算机还要快10的54次方倍。25 ... 世界最快05-20
-
苏州小伙,全球爬得最快 5月10日2026年世界攀联攀岩世界杯(中国吴江汾湖)圆满落幕在当晚举行的男子速度赛决赛中苏州17岁小将赵一程在家乡父老的注视下斩获男子速度赛金牌上演了“12天两破世界纪录”的传奇时刻苏州选手赵一程(左)作为中 ... 世界最快05-15
-
“九章四号”造出来了,速度比全球最快超算还要快10的54次方倍 “九章四号”造出来了,助力我国再次站上量子计算之巅峰。据央视新闻5月13日报道,中国科学技术大学潘建伟、陆朝阳等团队联合多家机构,成功研制出九章四号可编程光量子计算原型机,一举刷新光量子计算全球纪录,科 ... 世界最快05-14
-
10年升0.56℃!报告警示:欧洲变暖最快,超全球平均速度两倍 如果说全球变暖是一场缓慢燃烧的大火,那么欧洲可能已经站在最靠近火焰的地方。最新发布的《2025年欧洲气候状况》报告表明,欧洲是全球变暖最快的大陆。不是最热的地方,却是升温速度最惊人的大陆之一。世界气象组织 ... 世界最快05-13
-
实现50分钟成渝通勤!“全球最快高铁”,要来了 据央视新闻报道被称作“全球最快高铁”的CR450动车组正在沪渝蓉高铁开展运用考核明年将会在成渝中线展开更接近运营条件的全面测试2021年,“十四五”规划102项重大项目之一的CR450科技创新工程启动,去年年底,CR450 ... 世界最快05-13
-
造车8个月,它带来了全球最快的车 中国正式成为了全球顶尖的汽车大国,随便一家企业入场造车都是手拿把掐,从宣布造车到实车发布,只需要8个月时间!放眼全球,有哪个品牌能如此“高效”?用火箭般的速度,打造了速度媲美火箭的超跑,实现这一壮举的 ... 世界最快05-04
相关文章
- 苏州小伙,全球爬得最快
- “九章四号”造出来了,速度比全球最快超算还要快10的54次方倍
- 世界上最快的脚步,不是冲刺而是坚持
- 10年升0.56℃!报告警示:欧洲变暖最快,超全球平均速度两倍
- 实现50分钟成渝通勤!“全球最快高铁”,要来了
- 造车8个月,它带来了全球最快的车
- 世界上崛起速度最快的小国,从濒临亡国到区域霸主,只用了50年
- 诺奖得主与沪上大中学生畅谈发明世界上“最快的相机”
- 发明世界上“最快的相机”,诺奖得主复旦开讲!
- 10个世界上最快的人造物,打破了物理限制,快到让你怀疑人生。
- 世界最快科学装置是什么
- 报告:中国成为世界上增绿最多最快的国家
- 本田翼在电视节目上坦白了洗澡时间 在场人员吃惊:“世界最快?”
- 速度达10米/秒 全球最快人形机器人Bolt正式发布
- 世界最快!时速800公里,在武汉!
- 世界上最快的人!奔跑时速48公里,比猎豹还快
- 两小时建交,全球最快,背后到底图啥?
- 全球最快高铁要来了,时速453公里刷新纪录,明年将开展全面测试
- 全球最快的 10 列超级列车:第一名时速 603 公里,比客机起飞还快 50%
- 时速800公里!世界最快!就在湖北
热门阅读
-
世界最快的个人潜艇,数秒潜入100米 09-29
-
世界上最快的手指,一秒钟敲击琴键13次 10-12
-
世界上速度最快的卡车,能达到每小时644公里 10-28
-
世界上飞行最快的鸟,灵活的军舰鸟 04-26
