GPT-4混合大模型?研究证明MoE+指令调优确实让大模型性能超群
机器之心报道
编辑:小舟、陈萍
谷歌、UC 伯克利等证明 MoE + 指令调优起到了 1 + 1 > 2 的效果。
自 GPT-4 问世以来,人们一直惊艳于它强大的涌现能力,包括出色的语言理解能力、生成能力、逻辑推理能力等等。这些能力让 GPT-4 成为机器学习领域最前沿的模型之一。然而,OpenAI 至今未公开 GPT-4 的任何技术细节。
上个月,「天才黑客」乔治・霍兹(George Hotz)在接受一家名为 Latent Space 的 AI 技术播客的采访时提到了 GPT-4,并称 GPT-4 其实是一个混合模型。具体来说,乔治・霍兹称 GPT-4 采用由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。

Latent Space 的采访内容。
这或许只是乔治・霍兹的一种推测,但这种模式确实有一定的合理性。最近,由来自谷歌、UC 伯克利、MIT 等机构的研究者联合发表的一篇论文证实:混合专家模型(MoE)与指令调优的结合能够让大型语言模型(LLM)的性能大幅提升。

论文地址:https://arxiv.org/pdf/2305.14705.pdf
稀疏混合专家模型是一种特殊的神经网络架构,可以在不增加推理成本的情况下,为大型语言模型(LLM)增加可学习的参数。指令调优(instruction tuning)是一种训练 LLM 遵循指令的技术。该研究发现 MoE 模型比密集模型更能从指令调优中获益,因此提出将 MoE 和指令调优结合起来。
该研究在三种实验设置下进行了实证研究,包括
在没有指令调优的情况下在单个下游任务进行直接微调;指令调优后对下游任务进行 in-context 少样本或零样本泛化;指令调优后对单个下游任务进行进一步微调。在第一种情况下,MoE 模型总体上不如具有相同计算能力的密集模型。然而,随着指令调优的引入(第二和第三种情况),FLAN-MoE_32B(Fine-tuned LAnguage Net,简写为 Flan,是一种经过指令调优的模型,Flan-MoE 即为指令调优 MoE)在四个基准任务上性能超过了 FLAN-PALM_62B,却只用了三分之一的 FLOPs。
如下图所示,在使用指令调优前,MoE→FT 不如 T5→FT。指令调优后,Flan-MoE→FT 优于 Flan-T5→FT。MoE 从指令调优中获得的收益 (+15.6) 大于密集模型 (+10.2):

看来 GPT-4 采用混合模型还是有点根据的,MoE 确实能够从指令调优中获得更大的收益:

方法概述
研究者在 FLAN-MOE (是一组经过指令微调的稀疏混合专家模型)模型中使用了稀疏激活 MoE(Mixture-of-Experts)。此外,他们还用 MoE 层替换了其他 Transformer 层的前馈组件。
每个 MoE 层可理解为一个「专家」,然后,使用 softmax 激活函数对这些专家进行建模,得到一个概率分布。
尽管每个 MoE 层有很多参数,但专家是稀疏激活的。这意味着对于给定的输入 token,只使用有限的专家子集就能完成任务,从而为模型提供了更大的容量。
对于具有 E 个专家的 MoE 层,这实际上提供了 O (E^2) 种不同的前馈网络组合,从而实现了更大的计算灵活性。
由于 FLAN-MoE 是经过指令调优的模型,因而指令调优非常重要,该研究在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。此外,该研究将每个 FLAN-MOE 的输入序列长度调整为 2048,输出长度调整为 512。
实验与分析
平均而言,在不增加任何额外计算的情况下,Flan-MoE 在所有模型尺度上都优于密集的同类产品 (Flan-T5)。

专家数量。图 4 显示,随着专家数量的增加,初始时,模型受益于更丰富的专门子网络,每个子网络能够处理问题空间中的不同任务或方面。这种方式使得 MoE 在处理复杂任务时具有很强的适应性和效率,从而整体上改善性能。然而,随着专家数量的不断增加,模型性能增益开始减少,最终达到饱和点。

图 3 和表 1 详细研究了不同的路由决策如何影响指令调优性能:通过 FLAN-Switch 和 FLAN-GS 策略之间的比较可以得出,激活更多的专家会在四个基准测试中提高性能。在这些基准测试中,MMLU-Direct 模型显示出最显著的改进,对于 BASE/LARGE 尺寸的模型,从 38.0% 增加到 39.9%。
值得注意的是,与等效容量的密集模型相比,指令调优显著放大了 MoE 模型在保留 MMLU、BBH 和内部 QA 和推理基准测试方面的性能。对于较大的 MoE 模型,这些优势进一步放大。例如,指令调优使 ST_32B 的性能提升了 45.2%,而对于 FLAN-PALM_62B,这种改进相对较小,约为 6.6%。

当进行模型扩展时,Flan-MoE (Flan-ST-32B) 优于 Flan-PaLM-62B 。

此外,该研究通过 freeze 给定模型的门控函数(gating function)、专家模块和 MoE 参数进行了一些分析实验。如下表 2 所示,实验结果表明,freeze 专家模块或 MoE 组件对模型性能有负面影响。

相反,freeze 门控函数会使模型性能略有改善,尽管并不明显。研究者推测这一观察结果与 FLAN-MOE 的欠拟合有关。该研究还进行了消融实验来探究下图 5 描述了微调数据效率消融研究。

最后,为了比较直接对 MoE 进行微调和 FLAN-MOE 之间的差距,该研究对单任务微调的 MoE、单任务微调的 FLAN-MoE 和密集模型进行了实验,结果如下图 6 所示:

感兴趣的读者可以阅读论文原文,了解更多研究内容。
大家都在看
-
铜合金精密零件加工:黄铜、铍铜、红铜怎么选? 铜材在精密零件里是一个特殊的存在——不像铝合金那么主流,但在特定场合完全不可替代。导电性好、导热性优秀、耐腐蚀性强,是铜材被选择的核心原因。但"铜"不是一种材料。黄铜(Cu-Zn合金)、铍铜(Cu-Be合 ... 机械之最04-28
-
金属材料及热处理基础:盘点7个力学性能关键指标,从原理到应用 在机械制造领域,黑色金属材料的应用占比超 90%,核心原因就是它具备可通过热处理灵活调控、能适配各类复杂工况的力学性能。不管是零件设计选材、热处理工艺制定,还是后期的失效分析,吃透力学性能指标都是绕不开的 ... 机械之最04-27
-
国内史诗级长途自驾,3 万公里跨越南北西东,108 天走完直呼过瘾! 当夕阳把最后一抹金辉洒在帕米尔高原的雪峰上,当车轮碾过东极抚远凌晨四点的第一缕晨光,你会突然明白——有些风景,注定属于那些把梦想刻进车轮的人。这不是一场旅行,这是一次对960万平方公里的致敬。108天,3500 ... 机械之最04-27
-
万亿级大风口!超大“机”遇,来了→ “十五五”规划纲要,将“量子科技、生物制造、氢能和核聚变能、脑机接口、具身智能、第六代移动通信”列为六大未来产业,推动其成为新的经济增长点。具身智能是指拥有物理身体的智能体,人形机器人就是典型的代表之 ... 机械之最04-27
-
机械五虎VS机械四小龙完整版对比!2026报考直接对照选 机械五虎VS机械四小龙完整版对比!分数档位+专业侧重+就业差异,2026报考直接对照选 开篇导语 工科机械报考最纠结:选机械五虎冲顶尖天花板,还是选机械四小龙走高性价比赛道?一份完整版对比表,把分数门槛、王牌特 ... 机械之最04-27
-
首席记者谈首季经济丨江西的新能源产业突围之路 新华社南昌4月26日电 题:江西的新能源产业突围之路新华社记者冯俊扬地处江西上饶的晶科能源股份有限公司稳居全球光伏组件出货量前列;刷新充电速度纪录的比亚迪新一代刀片电池在江西抚州量产……今年1-2月,江西光 ... 机械之最04-27
-
0博士组合拿下ICLR时间检验奖,十年论文终封神 鹭羽 发自 凹非寺量子位 | 公众号 QbitAIICLR 2026时间检验奖新鲜出炉,获奖者——GPT天才本科生Alec Radford。网友们纷纷送来祝贺:“实至名归!”Alec为人相当低调,其社媒清一水的都是转发推荐他人优秀成果。但实 ... 机械之最04-26
-
追光丨专属老年人的“神仙”健身房 你看了“心动”吗? 放眼全国大大小小的健身房早就遍地开花但专门给老年人开的健身房你见过吗?不是公园随便甩甩手也不是小区慢悠悠走两圈而是有专业设备、有运动方案、有指导人员的专业空间一进门先做“全身扫描”↓机器一测个性化运动 ... 机械之最04-26
-
2026北京车展,中国智驾正定义全球标准 编者的话:在全球汽车产业的重心开始向东方倾斜之际,一场规模空前的行业盛宴在北京启幕。4月24日至5月3日,2026北京国际汽车展览会以“世界最大规模车展”的姿态,为全球观众和展商展示汽车技术创新的高地。正如一 ... 机械之最04-26
-
关注“体验经济”丨每年十几万人打卡“小米工厂” 工业游何以这么火? 新华社北京4月25日电 题:每年十几万人打卡“小米工厂” 工业游何以这么火?新华社记者吉宁看流水线上的机械手臂上下挥舞,亲手触摸机械零件实物,一趟行程下来仿佛置身科幻大片,近距离感受中国制造的魅力……近一 ... 机械之最04-26
相关文章
- 万亿级大风口!超大“机”遇,来了→
- 机械五虎VS机械四小龙完整版对比!2026报考直接对照选
- 首席记者谈首季经济丨江西的新能源产业突围之路
- 0博士组合拿下ICLR时间检验奖,十年论文终封神
- 追光丨专属老年人的“神仙”健身房 你看了“心动”吗?
- 2026北京车展,中国智驾正定义全球标准
- 关注“体验经济”丨每年十几万人打卡“小米工厂” 工业游何以这么火?
- 机械键盘选购指南:不同预算怎么选,才能不踩坑?
- 机械设计“进化史”从古代水车到智能机器人,藏着人类的造物智慧
- 机械专业报考建议:在质疑声中看清“工业之母”的真正价值
- 星箭聚力 探秘海南超级工厂
- 一场田间的“精密大考”——天津“优机优补”赋能合作经济一线观察
- 半夜收到一条私信:陈老师,我家孩子985机械电子,校招月薪5500
- 仅次于东道主!约700家中国展商亮相汉诺威工博会
- 央视曝光全球最强光刻机:西方封锁十年,中国早已另起炉灶
- 工业母机的“两岸配方”
- 机械大学生能考哪些证书?2026年高质量就业考证指南与职业规划
- 被机械设计“拯救”的3个日常瞬间,原来它一直在默默帮我们省事
- 为沙漠钉“楔子”——千里河西治沙行
- 商业航天,加速“飞天”(大数据观察·航天日特别报道)
热门阅读
-
天下第一暗器暴雨梨花针,传说中的唐门暗器做出来了 07-13
-
汽车投诉排行榜前十名汽车 问题最多的就是这些车 07-13
-
世界上最牛挖掘机,甚至可以挖穿一座城市 11-05
-
世界最大核潜艇制造厂,产量远超中美法 11-20
