基模型12项性能超越GPT-4,商汤语言大模型就等你来用
机器之能原创
作者:Sia
今天,商汤宣布日日新大模型旗下自然语言应用“商量SenseChat”正式面向广大用户开放。用户已经可以通过访问https://chat.sensetime.com 注册使用。
几天前发布的最新财报中,商汤用了很大篇幅讲述在 AI 大模型领域取得的成绩。2023 年上半年,商汤实现营业收入 14.3 亿元,同比增长 1.3%。其中生成式 AI 相关收入实现 670.4% 的增长,对集团业务贡献从 2022 年的 10.4% 增至 20.3% ,已经成为最重要的新增长引擎。
值得关注的是,商汤商量 SenseChat 的基模型(foundation model)书生·浦语 InternLM-123B 由商汤与上海人工智能实验室联合多家国内顶级科研机构最新训练完成,在全球 51 个知名评测集(包括 MMLU , AGIEVAL , ARC , CEval , Race , GSM8K 等)共计 30 万道问题集合上测试成绩整体排名全球第二,在主要评测中 12 项成绩超越 GPT-4 ,排名第一。
生成式 AI 的全面爆发,也在加速推动行业创新。根据弗若斯特沙利文发布的《 AI 大模型市场研究报告( 2023 )》,商汤在产品技术、战略愿景、生态开放构建等综合竞争力国内第一。
一、大模型背后:技术为王
商汤集团核心业务板块收入的加速增长,尤其是生成式 AI 收入的暴增,离不开扎实的底层技术支持。
今年 4 月 10 日,商汤推出大模型“日日新”,包括自然语言处理模型“商量”、文生图模型“秒画”和数字人视频生成平台“如影”等。
其中,商量SenseChat,也是国内最早推出基于千亿参数大语言模型的聊天机器人产品之一。
仅两个月后,商汤与上海人工智能实验室联合多家国内顶尖科研机构于 6 月发布首个综合能力超越 GPT-3.5-turbo(GPT3.5 最优秀的模型之一)的基模型书生·浦语大模型 InternLM-104B(1040 亿参数),使用 1.6 万亿 token 的多语言语料训练,支持语言达 20 多种。
当时,InternLM 联合团队选取了 20 余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集,PK 对手包括 GLM-130B(开源)、LLaMA-65B(开源)、ChatGPT 和 GPT-4:
由加州大学伯克利分校等高校构建的多任务考试评测集 MMLU;
微软研究院推出的学科考试评测集 AGIEval(含中国高考、司法考试及美国 SAT、LSAT、GRE 和 GMAT 等);
由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集 C-Eval;
由复旦大学研究团队构建的高考题目评测集 Gaokao。

全面测试后,针对上述四个重要评测集的成绩对比如上,满分100分。
结果显示,InternLM 不仅显著超越 GLM-130B 和 LLaMA-65B 等学术开源模型,还在 AGIEval、C-Eval,以及 Gaokao 等多个综合性考试中领先 ChatGPT;在以美国考试为主的 MMLU 上表现和 ChatGPT 持平。综合性考试的成绩反映出 InternLM 知识掌握扎实,综合能力也很优秀。
又过了两个月,在上万块 GPU 的支持下,经过多次试错调优,InternLM-123B 于 8 月完成研发,其能力实现飞跃式发展:语言、知识、理解、推理和学科五大能力均有显著提升。
InternLM-123B 在主要评测中 12 项成绩排名第一,超越 GPT-4。
其中,在评测集综合考试中 AGIEval 分数 57.8,超越 GPT-4 位列第一;知识问答 CommonSenseQA 评测分数 88.5 排名第一, NaturalQuestions 排名第二;
InternLM-123B 在阅读理解 C3、CMRC、RACE (Middle)、RACE (High)、LAMBADA 五项评测中成绩全部居榜首;
此外,InternLM-123B 在推理WinoGrande、StoryCloze、HellaSwag、StrategyQA、SIQA 几项评测中成绩排名第一。


InternLM-123B 在 12 项权威评测中超越 GPT-4 位列第一。
除了生成的内容更加准确、可靠,作为国内最早实现“工具调用”的大模型,InternLM-123B 最让人印象深刻的是处理更加复杂场景的能力更强:它会调用工具进行多步推理和计算。在调用插件工具的过程中,大语言模型可能无法一次性成功调用工具解决问题, InternLM-123B 还具备自主反思和修正错误的能力。
比如,InternLM-123B 升级了代码解释器的调用能力,大模型可以调用代码解释器,在工具的帮助下完成复杂方程求解,提升解决复杂数学计算等任务的能力。
除了代码解释器(比如使用 Python 解释器),InternLM-123B 还可以调用 API 和搜索这类常用工具,应对更加复杂的用户需求。你可以脑补、畅想这样一个情景:
告诉 InternLM-123B 驱动的聊天助手,要去哪里旅行,什么时间出发。这位聊天助手会调用搜索找到相关网页,然后进入浏览器页面,主动搜索符合要求的出行方案,帮你搞定。
其实,InternLM-123B 强大的工具调用能力为上层应用构建灵活的 AI 智能体(Agents)提供了底层支持。
所谓 AI 智能体,在大模型语境下,可以理解成能自主理解、规划、执行复杂任务的系统。
GPT-4 驱动的 Auto-GPT 已初见端倪:它不再是 ChatGPT ,而是一个比较完整的模型智能体,因为它可以通过大模型去调用各种工具,包括其他大模型。
AI 智能体被业内认为是 AIGC 之后的下一个热点,也被认为是通向 AGI 的重要方向与趋势。
今年 6 月,商汤、清华大学、上海人工智能实验室等提出了能够自主学习解决任务的通才 AI 智能体 Ghost in the Minecraft (GITM)。新智能体能够完全解锁《我的世界》( Minecraft )主世界的整体科技树的全部 262 个物品(以往智能体方法包括 OpenAI 和 DeepMind 在内总共只解锁了 78 个),并可大大减少训练投入。
同时,近年来,一些巨头(比如英伟达)也在通过 Minecraft 探索 AI 智能体,真人玩家能够完成游戏任务,智能体几乎都能完成。Open AI 最近也收购了一家 AI 公司,相当于买下了一个开源的 Minecraft。Meta 曾在 6 月宣布了一系列处于不同开发阶段的技术,其中一个也是 AI 智能体。
二、“三位一体”,持续发力
能够在大模型上不断迭代,并持续保持领先,离不开商汤多年来“三位一体”——数据、算法和算力——上的持续发力。
早在 2019 年,商汤便使用上千张 GPU 进行单任务训练,推出了 10 亿参数规模的视觉模型,算法效果达到了当时业界最佳。2021 年至 2022 年期间,商汤还训练并开源了 30 亿参数的通用视觉模型书生 INTERN。
与算法模型持续联动的,还有底层算力上的不断投入与创新。
商汤称,SenseCore 商汤 AI 大装置上线 GPU 数量由 2023 年 3 月底的 2.7 万块,提升至日前的约三万块,算力规模提升 20% 至 6 ExaFLOPS。同时,2023 年上半年,商汤共有超过 1000 个参数量数十亿至上千亿的大模型在大装置上完成训练,并实现了技术迭代。
2021 年 6 月,商汤在接受机器之心采访时曾表示,待年底位于上海临港新片区的建筑群全部建成后, AI 计算峰值速度将达到 3740 Petaflops(1 petaflop 等于每秒一千万亿次浮点运算),可以在一天之内完整训练 OpenAI 的千亿参数模型 GPT-3。
现在国内人工智能领域,商汤大装置所提供的高性能计算名列前茅,不仅为做算法研究的人员提供了充足的算力,使他们能够快速地进行实验试错,大装置中所积累的实用工具也缩短了创新的验证周期。
不过,要做出大模型,除了算法经验和 GPU,也需要专业经验的积累和摸索。商汤也在这些方面积累了很久。
比如,制作高性能模型对训练数据的体量和质量都有着极高的要求,而模型的价值观、安全性也受训练数据的影响。通俗点说,目前大模型的技术路径决定了拥有大量高质量文本语料也意味着自动获得了海量的标注质量高的数据。
InternLM 性能领先,离不开体量业界领先的原始语料数据,更离不开强大的语料清洗和实验的能力。为对万亿 token 级别的数据进行高质量清洗,团队投入了数百台服务器搭载千卡 GPU 的计算资源,采用算法+人工的方式,对这些原始语料分门别类,精细化清洗,以确保其质量和安全。
报告称,高质量数据的生产能力达到每月逾 2 万亿 token,预计年底高质量数据储备将突破 10 万亿 token,以支持更加强大的基模型的训练。
此外,要保证大量 GPU 长时间稳定运行,需要经历许多试错。商汤科技自 2018 年起便致力于 AI 大模型的研发,有着数年的技术积淀和实践经验。早在 2019 年,商汤便具备了千卡并行的系统能力,使用上千张 GPU 卡进行单任务训练。
4 月,杨帆接受媒体采访时曾谈到,训练时大模型常遇到“梯度爆炸”,或者硬件故障造成机器过载宕机,以前宕机频率是十分钟一次,商汤现在能做到千卡级系统一周一次,这也是不断调试的结果。
GPU 大规模并行之后,还需不断调试并联方法,提高算力效率,商汤目前在千卡集群上能达到的最高效率是 90% 利用效率。
值得一提的是,为满足客户的不同需求,全面覆盖业务场景,商汤还推出了多个行业大模型,并且和上海人工智能实验室联合开源了 InternLM-7B 。目前,InternLM-7B 的部分训练数据、训练代码及基模型权重已经向学术界及工业界免费开源,并支持免费商用。InternLM-7B 也登顶了多个模型测试榜单,是性能最好的轻量级基模型之一,在多个榜单中,表现甚至超过参数量更大的 LLaMA2-13B。另外,InternLM-20B 也将迎来开源。InternLM-20B 具备优秀的调用工具能力,同时,其适中的模型大小使得其运行成本更低,适合建构各类应用。
其实商汤的AI大模型研发,是从 2018 年就开始的。在 2019 年,商汤就推出了 10 亿参数量规模的视觉模型,在视觉 AI 技术方面达到了全球领先。2021 年以来,商汤又陆续训练了百亿参数规模的超大视觉模型,以及 320 亿参数量的全球最大的通用视觉模型,并在自动驾驶、工业质检、医疗影像等多个领域得到广泛应用。可见商汤投入到大模型这条路径,乃至最终迈向 AGI 通用人工智能,可谓水到渠成。
多年来,商汤始终坚持长期战略,持续投入到人工智能领域的重要前沿研究中,并不断取得成果。今年 6 月,商汤联合团队论文 Planning-oriented Autonomous Driving,因提出的自动驾驶通用大模型 UniAD 获得 CVPR 2023 最佳论文,这不但是行业首个感知决策一体化自动驾驶大模型,也是 CVPR 史上第一篇以自动驾驶为主题的最佳论文。最新财报显示,商汤自动驾驶大模型将于第四季度准备就绪,用于量产。
长远来看,大模型的格局此刻或许仍然风起云涌,但长期战略带来的持久影响将在未来,让我们都走得更加深远。
大家都在看
-
让刘青云四封影帝的《爸爸》:最痛的人生,没有答案 第43届香港电影金像奖的舞台上,当“最佳男主角——刘青云《爸爸》” 的声音落下,台下掌声平稳而笃定。没有了此前多年“陪跑”终圆梦的沸腾欢呼,也没有爆冷得奖的意外哗然。过于意料之中的结果,好像少了点惊喜, ... 机械之最06-28
-
抱抱脸模型TOP榜,我现在只服yuxinlu1 一位个人开发者,竟然在一众大厂中,杀进了抱抱脸Models Trending榜的前排?!这是普通的一天,我也普通地刷着抱抱脸的Trending榜。第一是GLM-5.2,智谱最新开源模型,老熟人了,下载量6万多,不足为奇。第二是百度 ... 机械之最06-28
-
普通家庭选机械专业,避开机器人,选这些更稳 咱河南的家长们,一提到给孩子报机械类专业,是不是张口就说“机器人工程”?觉得这专业时髦、高大上,毕业就能拿高薪? 我身边有个真实例子:邻居家孩子,2023年高考,分数够了省内一本,死活要报机器人工程,说同 ... 机械之最06-28
-
新华网文化观察丨冰雪之外 砖石有声——让历史文化建筑可读 可逛 可生活 新华网哈尔滨6月28日电(李硕)岁月沉淀的老建筑,是一座城市不可复刻的文化根脉。如今各地愈发重视历史遗存保护,大批尘封老城街巷的历史建筑得以修缮重生,但修缮之后如何运营、如何避免建筑与生活割裂,仍是亟待 ... 机械之最06-28
-
AI时代,产品团队如何从“需求承接型”升级为“AI驱动的业务价值型团队” AI正在颠覆产品经理的传统角色,从PRD自动生成到原型快速设计,自动化工具正逐步接管机械性工作。本文揭示了一个残酷真相:只会写文档跟需求的产品经理将被淘汰,同时提供了从战局定义、决策引擎到价值杠杆的三重转 ... 机械之最06-27
-
夫妻同时发热咳嗽,“元凶”竟在家中地板里! 目前,我国梅雨季节已全面开启 南方多地“入梅” 不仅降雨强度大 还伴有气温高、湿度大等特点 高温高湿的环境不仅让人体感不适,还为霉菌等真菌滋生提供了温床。家里墙角、地板、浴室胶条上那些不起眼的黑斑,可能正 ... 机械之最06-27
-
1978年,我半夜偷回砖厂修机器,被女厂长堵住,她盯着我的手看 1978年那个冬夜,厂里的苏联老压砖机突然停了。一停就是好几天,车间里冷得像个冰窖,工人们嘴上不说,心里都明白:这机器要是真废了,红星砖厂也就离散摊子不远了。可谁能想到,最后把这台“老古董”救回来的人,不 ... 机械之最06-27
-
大扩军之后,DeepSeek怎么走 (本文作者为 字母AI,钛媒体经授权发布)文 | 字母AI融资之后,招人是DeepSeek释放的第一个明确信号。6月25日,DeepSeek发布了一张大规模招聘海报,表示随着技术演进,他们正努力将所有部门的规模扩大至少一倍。所 ... 机械之最06-27
-
“人差点没了”,57岁男子用它三天双肺全白,家家都有 “真没想到,开个空调能把人差点‘开’没了!”近日,走出武汉大学人民医院东院区住院部大楼时,57岁的熊先生感到一阵后怕。23天前,他躺在重症监护室里,身上插满管子,双肺在CT片子上白得像两团棉花,心、肝、肾、 ... 机械之最06-27
-
从炸炼油厂到炸导弹厂,乌军为何突然改变打法? 你问的这个问题,正好切中了2026年6月这场战争最关键的转折点。过去一年多,乌克兰反复轰炸俄罗斯的炼油厂、储油库,目标很明确——掏空俄罗斯的战争钱袋子。但从2026年6月22日炸掉沃罗涅日半导体厂开始,这盘棋的落 ... 机械之最06-25
相关文章
- 抱抱脸模型TOP榜,我现在只服yuxinlu1
- 普通家庭选机械专业,避开机器人,选这些更稳
- 毛乌素沙地的绿色接力
- 新华网文化观察丨冰雪之外 砖石有声——让历史文化建筑可读 可逛 可生活
- 太原科大重型_机械硕士毕业4年:同寝4人才看清——晋祠旁机械荣光在图纸上,同寝公积金在排号里,太重系旁边的小区依旧买得吃力
- AI时代,产品团队如何从“需求承接型”升级为“AI驱动的业务价值型团队”
- 奋斗之路:从一棵松到一片海
- 夫妻同时发热咳嗽,“元凶”竟在家中地板里!
- 为什么你的劳力士秒针“一顿一顿”走?不是做工粗糙,背后藏着90%的人不知道的秘密
- 1978年,我半夜偷回砖厂修机器,被女厂长堵住,她盯着我的手看
- 大扩军之后,DeepSeek怎么走
- “人差点没了”,57岁男子用它三天双肺全白,家家都有
- 机械本科别乱选!坚决绕开这3个天坑方向,抓住新能源半导体才是出路
- 从炸炼油厂到炸导弹厂,乌军为何突然改变打法?
- 26年机械专业还可以报吗?是不是早就老掉牙了?还能就业吗?值不值得报?
- 机械之眼:卷尺为什么能自己缩回去?
- Momenta通过港交所聆讯:去年净亏34亿元,毛利率增至71.6%,上汽、奔驰均为股东
- 九年沉淀,中国超算“莱茵”击败美国“埃尔卡皮坦”重回世界第一
- 小区的“直饮水”真能直接喝吗?小心这4个“坑”
- 怎么一眼看出“这是 AI 译的”?5 个机器翻译的“破绽”清单
热门阅读
-
天下第一暗器暴雨梨花针,传说中的唐门暗器做出来了 07-13
-
汽车投诉排行榜前十名汽车 问题最多的就是这些车 07-13
-
世界上最牛挖掘机,甚至可以挖穿一座城市 11-05
-
世界最大核潜艇制造厂,产量远超中美法 11-20
-
我国在职正部级领导中,最年轻的是这5人! 08-30
