GPT-4混合大模型?研究证明MoE+指令调优确实让大模型性能超群
机器之心报道
编辑:小舟、陈萍
谷歌、UC 伯克利等证明 MoE + 指令调优起到了 1 + 1 > 2 的效果。
自 GPT-4 问世以来,人们一直惊艳于它强大的涌现能力,包括出色的语言理解能力、生成能力、逻辑推理能力等等。这些能力让 GPT-4 成为机器学习领域最前沿的模型之一。然而,OpenAI 至今未公开 GPT-4 的任何技术细节。
上个月,「天才黑客」乔治・霍兹(George Hotz)在接受一家名为 Latent Space 的 AI 技术播客的采访时提到了 GPT-4,并称 GPT-4 其实是一个混合模型。具体来说,乔治・霍兹称 GPT-4 采用由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。

Latent Space 的采访内容。
这或许只是乔治・霍兹的一种推测,但这种模式确实有一定的合理性。最近,由来自谷歌、UC 伯克利、MIT 等机构的研究者联合发表的一篇论文证实:混合专家模型(MoE)与指令调优的结合能够让大型语言模型(LLM)的性能大幅提升。

论文地址:https://arxiv.org/pdf/2305.14705.pdf
稀疏混合专家模型是一种特殊的神经网络架构,可以在不增加推理成本的情况下,为大型语言模型(LLM)增加可学习的参数。指令调优(instruction tuning)是一种训练 LLM 遵循指令的技术。该研究发现 MoE 模型比密集模型更能从指令调优中获益,因此提出将 MoE 和指令调优结合起来。
该研究在三种实验设置下进行了实证研究,包括
在没有指令调优的情况下在单个下游任务进行直接微调;指令调优后对下游任务进行 in-context 少样本或零样本泛化;指令调优后对单个下游任务进行进一步微调。在第一种情况下,MoE 模型总体上不如具有相同计算能力的密集模型。然而,随着指令调优的引入(第二和第三种情况),FLAN-MoE_32B(Fine-tuned LAnguage Net,简写为 Flan,是一种经过指令调优的模型,Flan-MoE 即为指令调优 MoE)在四个基准任务上性能超过了 FLAN-PALM_62B,却只用了三分之一的 FLOPs。
如下图所示,在使用指令调优前,MoE→FT 不如 T5→FT。指令调优后,Flan-MoE→FT 优于 Flan-T5→FT。MoE 从指令调优中获得的收益 (+15.6) 大于密集模型 (+10.2):

看来 GPT-4 采用混合模型还是有点根据的,MoE 确实能够从指令调优中获得更大的收益:

方法概述
研究者在 FLAN-MOE (是一组经过指令微调的稀疏混合专家模型)模型中使用了稀疏激活 MoE(Mixture-of-Experts)。此外,他们还用 MoE 层替换了其他 Transformer 层的前馈组件。
每个 MoE 层可理解为一个「专家」,然后,使用 softmax 激活函数对这些专家进行建模,得到一个概率分布。
尽管每个 MoE 层有很多参数,但专家是稀疏激活的。这意味着对于给定的输入 token,只使用有限的专家子集就能完成任务,从而为模型提供了更大的容量。
对于具有 E 个专家的 MoE 层,这实际上提供了 O (E^2) 种不同的前馈网络组合,从而实现了更大的计算灵活性。
由于 FLAN-MoE 是经过指令调优的模型,因而指令调优非常重要,该研究在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。此外,该研究将每个 FLAN-MOE 的输入序列长度调整为 2048,输出长度调整为 512。
实验与分析
平均而言,在不增加任何额外计算的情况下,Flan-MoE 在所有模型尺度上都优于密集的同类产品 (Flan-T5)。

专家数量。图 4 显示,随着专家数量的增加,初始时,模型受益于更丰富的专门子网络,每个子网络能够处理问题空间中的不同任务或方面。这种方式使得 MoE 在处理复杂任务时具有很强的适应性和效率,从而整体上改善性能。然而,随着专家数量的不断增加,模型性能增益开始减少,最终达到饱和点。

图 3 和表 1 详细研究了不同的路由决策如何影响指令调优性能:通过 FLAN-Switch 和 FLAN-GS 策略之间的比较可以得出,激活更多的专家会在四个基准测试中提高性能。在这些基准测试中,MMLU-Direct 模型显示出最显著的改进,对于 BASE/LARGE 尺寸的模型,从 38.0% 增加到 39.9%。
值得注意的是,与等效容量的密集模型相比,指令调优显著放大了 MoE 模型在保留 MMLU、BBH 和内部 QA 和推理基准测试方面的性能。对于较大的 MoE 模型,这些优势进一步放大。例如,指令调优使 ST_32B 的性能提升了 45.2%,而对于 FLAN-PALM_62B,这种改进相对较小,约为 6.6%。

当进行模型扩展时,Flan-MoE (Flan-ST-32B) 优于 Flan-PaLM-62B 。

此外,该研究通过 freeze 给定模型的门控函数(gating function)、专家模块和 MoE 参数进行了一些分析实验。如下表 2 所示,实验结果表明,freeze 专家模块或 MoE 组件对模型性能有负面影响。

相反,freeze 门控函数会使模型性能略有改善,尽管并不明显。研究者推测这一观察结果与 FLAN-MOE 的欠拟合有关。该研究还进行了消融实验来探究下图 5 描述了微调数据效率消融研究。

最后,为了比较直接对 MoE 进行微调和 FLAN-MOE 之间的差距,该研究对单任务微调的 MoE、单任务微调的 FLAN-MoE 和密集模型进行了实验,结果如下图 6 所示:

感兴趣的读者可以阅读论文原文,了解更多研究内容。
大家都在看
-
“龙虾”接管电脑的5分钟里,他的电脑被陌生人连了139次 “保护环境。”当你给AI发送这样一条极度简单、语义模糊的指令后,你期待它给你怎样的回应?解释环保的概念?给出保护环境的建议?慷慨激昂地发表一番绿色地球宣言?如果它没做这些,反而是悄无声息地删掉你一部分文 ... 机械之最03-13
-
第51届日内瓦国际发明展开幕 中国参展规模创新高 3月11日,在瑞士日内瓦举行的第51届日内瓦国际发明展上,人们在中国展位参观。新华社记者 王露 摄新华社日内瓦3月11日电(记者王露 马汝轩)第51届日内瓦国际发明展11日在瑞士日内瓦开幕,来自35个国家和地区的1000 ... 机械之最03-13
-
云深处科技的机器马有何特别之处 云深处科技的机器马“云驹”最特别之处,在于它成功地将传统文化符号、稳健的运动性能与前沿的具身智能技术融为一体,成为一匹能走进现实生活的“未来之马”。在AWE 2026展会上,这款马年限定产品凭借其独特魅力,瞬 ... 机械之最03-13
-
来时的路(一):第一机械工业部,那个管得最宽的“一机部” 朋友们好,从今天开始,我想跟你聊聊新中国工业史上那八个带着数字番号的“机械工业部”。这段历史有点长,有点复杂,但特别值得咱们坐下来好好唠唠。咱们先从一个故事开始。一、缘起:1952年,一机部开张了1952年8 ... 机械之最03-13
-
火骨纸魂、跃夜成光,五经富烟花火龙非遗重生全记录 在粤东莲花山脉深处,龙江水蜿蜒而过的五经富古镇,一项沉睡三十二年的民俗盛典,在丙午马年元宵之夜再度燃亮夜空。竹为骨、纸为肤、火为魂,三条近四十米长的烟花火龙穿云破雾,在漫天焰火中腾挪起舞,将三百年的客 ... 机械之最03-12
-
商鞅变法,最狠的改革,把弱秦变成战争机器 中国历史上,商鞅变法无疑是一次深刻而彻底的社会变革。它不仅改造了战国时期的秦国,使之迅速崛起为一支强大的军事力量,更为后来秦统一六国、建立中国第一个大一统帝国奠定了坚实基础。商鞅变法以其激进的改革措施 ... 机械之最03-12
-
P08炮兵型 当优雅鲁格遇上长枪管 它是手枪界的“狙击精英” 在世界轻武器史上,没有任何一把手枪能像鲁格P08那样,将精密钟表般的机械美感与武器的杀戮本能融合得如此天衣无缝。而在这座美学巅峰之上,还伫立着一个更为罕见、更具传奇色彩的异类——P08炮兵型(LP08)。它用一 ... 机械之最03-12
-
对比多家裁断机供应商,最终还是选智成!原因很实在 很多企业采购裁断机时,都会货比三家,对比品牌、价格、品质、服务,最终却纷纷选择智成机械,背后的原因简单又实在——综合实力碾压同行,性价比拉满,服务更贴心。与其他供应商相比,智成机械有三大核心优势,让企 ... 机械之最03-12
-
别再盲目劝退机械!大学生选对这几个方向,越老越吃香薪资节节高 网上关于 “机械专业劝退” 的声音,几乎每年高考志愿季都要刷屏一次。“又脏又累”“工资微薄”“夕阳产业”,这些标签像紧箍咒一样,让无数想学机械的考生望而却步,连不少在校生都开始焦虑转专业。但作为深耕机械 ... 机械之最03-11
-
“封龙”何以变“飞龙”——石家庄五大产业跃升记 封龙山,又名飞龙山,横亘在河北省石家庄市区西南,从汉代起即为当地教育中心。而今,封龙山下,一批现代化的企业成为带动当地经济、社会发展的龙头。“十四五”时期,石家庄市努力创新改革,以延链补链强链,打破低 ... 机械之最03-11
相关文章
- 【史海回眸】泰缅“死亡铁路”,日军暴行铁证
- 第51届日内瓦国际发明展开幕 中国参展规模创新高
- 云深处科技的机器马有何特别之处
- 来时的路(一):第一机械工业部,那个管得最宽的“一机部”
- 独家!探秘创下五大“世界之最”的中国深海“蛟龙”
- 火骨纸魂、跃夜成光,五经富烟花火龙非遗重生全记录
- 世界肾脏日
- 商鞅变法,最狠的改革,把弱秦变成战争机器
- 向新求质 三明工业稳健前行
- P08炮兵型 当优雅鲁格遇上长枪管 它是手枪界的“狙击精英”
- 对比多家裁断机供应商,最终还是选智成!原因很实在
- Nikon FM2:机械之心,永恒之魂
- 经常挖鼻孔,后来都怎么样了?有这种情况的人真的要注意了
- 别再盲目劝退机械!大学生选对这几个方向,越老越吃香薪资节节高
- “封龙”何以变“飞龙”——石家庄五大产业跃升记
- “6G网要来了”热搜第一!研发进入关键期,还要破解哪些难题
- “养龙虾”爆火之后,别把技术幻想当成生产力现实
- 阿基米德:喊“我找到了”古希腊狂人,杠杆和浮力都是他发明的!
- 小变化中的大图景——六位全国人大代表履职中的“微光”与“星河”
- 刀尖角:车刀里的 “隐形强者”,决定刀具寿命的关键密码
热门阅读
-
天下第一暗器暴雨梨花针,传说中的唐门暗器做出来了 07-13
-
汽车投诉排行榜前十名汽车 问题最多的就是这些车 07-13
-
世界上最牛挖掘机,甚至可以挖穿一座城市 11-05
-
世界最大核潜艇制造厂,产量远超中美法 11-20
