GPT-4混合大模型?研究证明MoE+指令调优确实让大模型性能超群
机器之心报道
编辑:小舟、陈萍
谷歌、UC 伯克利等证明 MoE + 指令调优起到了 1 + 1 > 2 的效果。
自 GPT-4 问世以来,人们一直惊艳于它强大的涌现能力,包括出色的语言理解能力、生成能力、逻辑推理能力等等。这些能力让 GPT-4 成为机器学习领域最前沿的模型之一。然而,OpenAI 至今未公开 GPT-4 的任何技术细节。
上个月,「天才黑客」乔治・霍兹(George Hotz)在接受一家名为 Latent Space 的 AI 技术播客的采访时提到了 GPT-4,并称 GPT-4 其实是一个混合模型。具体来说,乔治・霍兹称 GPT-4 采用由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。

Latent Space 的采访内容。
这或许只是乔治・霍兹的一种推测,但这种模式确实有一定的合理性。最近,由来自谷歌、UC 伯克利、MIT 等机构的研究者联合发表的一篇论文证实:混合专家模型(MoE)与指令调优的结合能够让大型语言模型(LLM)的性能大幅提升。

论文地址:https://arxiv.org/pdf/2305.14705.pdf
稀疏混合专家模型是一种特殊的神经网络架构,可以在不增加推理成本的情况下,为大型语言模型(LLM)增加可学习的参数。指令调优(instruction tuning)是一种训练 LLM 遵循指令的技术。该研究发现 MoE 模型比密集模型更能从指令调优中获益,因此提出将 MoE 和指令调优结合起来。
该研究在三种实验设置下进行了实证研究,包括
在没有指令调优的情况下在单个下游任务进行直接微调;指令调优后对下游任务进行 in-context 少样本或零样本泛化;指令调优后对单个下游任务进行进一步微调。在第一种情况下,MoE 模型总体上不如具有相同计算能力的密集模型。然而,随着指令调优的引入(第二和第三种情况),FLAN-MoE_32B(Fine-tuned LAnguage Net,简写为 Flan,是一种经过指令调优的模型,Flan-MoE 即为指令调优 MoE)在四个基准任务上性能超过了 FLAN-PALM_62B,却只用了三分之一的 FLOPs。
如下图所示,在使用指令调优前,MoE→FT 不如 T5→FT。指令调优后,Flan-MoE→FT 优于 Flan-T5→FT。MoE 从指令调优中获得的收益 (+15.6) 大于密集模型 (+10.2):

看来 GPT-4 采用混合模型还是有点根据的,MoE 确实能够从指令调优中获得更大的收益:

方法概述
研究者在 FLAN-MOE (是一组经过指令微调的稀疏混合专家模型)模型中使用了稀疏激活 MoE(Mixture-of-Experts)。此外,他们还用 MoE 层替换了其他 Transformer 层的前馈组件。
每个 MoE 层可理解为一个「专家」,然后,使用 softmax 激活函数对这些专家进行建模,得到一个概率分布。
尽管每个 MoE 层有很多参数,但专家是稀疏激活的。这意味着对于给定的输入 token,只使用有限的专家子集就能完成任务,从而为模型提供了更大的容量。
对于具有 E 个专家的 MoE 层,这实际上提供了 O (E^2) 种不同的前馈网络组合,从而实现了更大的计算灵活性。
由于 FLAN-MoE 是经过指令调优的模型,因而指令调优非常重要,该研究在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。此外,该研究将每个 FLAN-MOE 的输入序列长度调整为 2048,输出长度调整为 512。
实验与分析
平均而言,在不增加任何额外计算的情况下,Flan-MoE 在所有模型尺度上都优于密集的同类产品 (Flan-T5)。

专家数量。图 4 显示,随着专家数量的增加,初始时,模型受益于更丰富的专门子网络,每个子网络能够处理问题空间中的不同任务或方面。这种方式使得 MoE 在处理复杂任务时具有很强的适应性和效率,从而整体上改善性能。然而,随着专家数量的不断增加,模型性能增益开始减少,最终达到饱和点。

图 3 和表 1 详细研究了不同的路由决策如何影响指令调优性能:通过 FLAN-Switch 和 FLAN-GS 策略之间的比较可以得出,激活更多的专家会在四个基准测试中提高性能。在这些基准测试中,MMLU-Direct 模型显示出最显著的改进,对于 BASE/LARGE 尺寸的模型,从 38.0% 增加到 39.9%。
值得注意的是,与等效容量的密集模型相比,指令调优显著放大了 MoE 模型在保留 MMLU、BBH 和内部 QA 和推理基准测试方面的性能。对于较大的 MoE 模型,这些优势进一步放大。例如,指令调优使 ST_32B 的性能提升了 45.2%,而对于 FLAN-PALM_62B,这种改进相对较小,约为 6.6%。

当进行模型扩展时,Flan-MoE (Flan-ST-32B) 优于 Flan-PaLM-62B 。

此外,该研究通过 freeze 给定模型的门控函数(gating function)、专家模块和 MoE 参数进行了一些分析实验。如下表 2 所示,实验结果表明,freeze 专家模块或 MoE 组件对模型性能有负面影响。

相反,freeze 门控函数会使模型性能略有改善,尽管并不明显。研究者推测这一观察结果与 FLAN-MOE 的欠拟合有关。该研究还进行了消融实验来探究下图 5 描述了微调数据效率消融研究。

最后,为了比较直接对 MoE 进行微调和 FLAN-MOE 之间的差距,该研究对单任务微调的 MoE、单任务微调的 FLAN-MoE 和密集模型进行了实验,结果如下图 6 所示:

感兴趣的读者可以阅读论文原文,了解更多研究内容。
大家都在看
-
在星辰大海中刻下求真印记——写在丁肇中九十岁寿辰之际 作者:张志会、李志毅2026年1月27日,著名美籍华裔物理学家、1976年诺贝尔物理学奖得主丁肇中教授迎来九十寿辰。作为中国实验高能物理走向世界的重要引路人,他数十年来持续推动中国科学家深度参与国际前沿合作。此 ... 机械之最01-28
-
《太平年》里的冯道究竟是怎样的人? 电视剧《太平年》里戏份颇重的冯道,自号“长乐老”,历史上历仕后唐、后晋、后汉、后周四朝,执相位二十余年,在五代时期颇有影响。有人说他是忠贞之士,更有人说他是奸臣之尤?冯道,究竟是一个怎样的人?冯道影视 ... 机械之最01-28
-
机械行业ERP怎么选?这5款软件值得重点关注 各位机械行业的朋友,你是否在为生产管理混乱、成本核算不清、项目进度难跟踪而头疼?今天为大家盘点5款在机械设备领域表现突出的ERP系统,帮你找到最适合自己的数字化助手!1. 哲霖软件深耕机械装备制造的专业之选 ... 机械之最01-28
-
这些塑料之最,你知道几个? 在材料科学的广阔天地中,塑料以其丰富的种类和独特的性能,成为现代工业和日常生活不可或缺的一部分。不同塑料因分子结构和合成工艺的差异,展现出各具特色的 “之最” 特性,下面就让我们深入了解这些塑料之最吧。 ... 机械之最01-28
-
“一根翠竹”何以撬动5000亿绿色产业? 一根竹子,何以撑起一个年产值超5200亿元的绿色产业?国家林草局公布数据显示,近年来,我国竹产业规模持续壮大,初步形成品类齐全、业态丰富、特色明显的竹产业体系,主要竹产品实现生产效益与附加值双提升。截至目 ... 机械之最01-28
-
“买8享9”几何?一文盘点智己LS8的越级配置清单 当2026年的序幕缓缓拉开,高端汽车市场的宁静被一张极具张力的官图彻底打破,智己LS8的正式亮相不仅标志着家族双旗舰格局的成型,更预示着一场关于“豪华定义权”的深度博弈正式打响。如果在过去,人们提及“陆家嘴 ... 机械之最01-27
-
以精准铸就信赖——不锈钢棒材如何在机械精密加工中突破毫厘之差 在机械制造的舞台上,精密加工是衡量技术实力的终极标尺。无数精密的齿轮、轴系、连接件,构成了现代工业装备的心脏与骨架。然而,在这毫厘之间定成败的世界里,基础材料的“毫厘之差”往往被成倍放大,成为良品率与 ... 机械之最01-27
-
靠收边角料起家,如今年产值120亿!这座小城的生意经藏在钢卷尺里 原标题:豫东小城钢卷尺产销占全球市场65%以上边角料里“淘”出百亿产业(财经深一度·宝藏小城的出口生意经)数据来源:海关总署等机器将扁平的尺条加工出弧度,激光打印机精准标注刻度,工人们熟练钉钩、装弹簧、 ... 机械之最01-27
-
可“解难题”也可“出好题”!中国科学家取得通用人工智能逻辑推理新突破 新华社北京1月26日电(记者魏梦佳)中国科研团队近日自主研发出的一款“通矩模型”,该成果26日晚在线发表于国际权威学术期刊《自然-机器智能》。相关专家表示,这是国际首个同时具备自主出题和自动解题双重能力的通 ... 机械之最01-27
-
向险而行的“维和勇士” 只有平时肯下苦功夫,任务来了,我们才能顶得上。——强军心语破晓哨响,“抗震救灾英雄营”官兵瞬间集结,口号震天。战备拉动是常态,但老兵张军强神情依旧凝重。2008年汶川特大地震的亲身救援经历,他早已将“时间 ... 机械之最01-27
相关文章
- 向险而行的“维和勇士”
- 想学机械?别只知清华!“机械四小龙”才是真大佬
- 小心!60 岁后,颈动脉几乎 100% 会长斑块!这样做能逆转→
- 头皮发麻,男子胆管爬满密密麻麻的虫!很多人爱吃
- 转子上的较量:利拿密炼机的技术攻坚战
- 头皮发麻!男子胆管爬满密密麻麻的虫……曾在半年前吃过这道美味,很多人都爱吃
- 泥鳅和黄鳝不是亲戚?人类其实是“长肺的鱼”?丨开讲啦
- 无人智能作战,如何成为奇兵利器
- 心脏能成为“充电宝”?我国科学家有新发明
- 新华社经济随笔:德国企业缘何青睐中国?
- 罗布泊的一声巨响,他在2000公里外的金银滩热泪盈眶
- 秦始皇被骂暴君可他在位的十一年做的改革足以改变一个朝代的命运
- 机械召唤流打造攻略:零氪可玩
- 一句话讲清大学专业(十五):力学类与机械类
- 新赛季召唤革命!机械之神过载大军,自动索敌的钢铁洪流攻略
- 为了一颗小心脏的跳动
- 湖北崇阳:踏雪巡山守供水 清障护线保电力
- 海平面下的城市智慧:缓解“大城市病”,鹿特丹做对了什么?
- 当眼睛学会思考:机器视觉的觉醒与进化
- 列国鉴丨记者观察:发力打造北极航道 俄罗斯北极开发要提速
热门阅读
-
天下第一暗器暴雨梨花针,传说中的唐门暗器做出来了 07-13
-
汽车投诉排行榜前十名汽车 问题最多的就是这些车 07-13
-
世界十大大型船舶排名,第一能承重六十万吨! 07-13
