GPT-4混合大模型?研究证明MoE+指令调优确实让大模型性能超群
机器之心报道
编辑:小舟、陈萍
谷歌、UC 伯克利等证明 MoE + 指令调优起到了 1 + 1 > 2 的效果。
自 GPT-4 问世以来,人们一直惊艳于它强大的涌现能力,包括出色的语言理解能力、生成能力、逻辑推理能力等等。这些能力让 GPT-4 成为机器学习领域最前沿的模型之一。然而,OpenAI 至今未公开 GPT-4 的任何技术细节。
上个月,「天才黑客」乔治・霍兹(George Hotz)在接受一家名为 Latent Space 的 AI 技术播客的采访时提到了 GPT-4,并称 GPT-4 其实是一个混合模型。具体来说,乔治・霍兹称 GPT-4 采用由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。
Latent Space 的采访内容。
这或许只是乔治・霍兹的一种推测,但这种模式确实有一定的合理性。最近,由来自谷歌、UC 伯克利、MIT 等机构的研究者联合发表的一篇论文证实:混合专家模型(MoE)与指令调优的结合能够让大型语言模型(LLM)的性能大幅提升。
论文地址:https://arxiv.org/pdf/2305.14705.pdf
稀疏混合专家模型是一种特殊的神经网络架构,可以在不增加推理成本的情况下,为大型语言模型(LLM)增加可学习的参数。指令调优(instruction tuning)是一种训练 LLM 遵循指令的技术。该研究发现 MoE 模型比密集模型更能从指令调优中获益,因此提出将 MoE 和指令调优结合起来。
该研究在三种实验设置下进行了实证研究,包括
在没有指令调优的情况下在单个下游任务进行直接微调;指令调优后对下游任务进行 in-context 少样本或零样本泛化;指令调优后对单个下游任务进行进一步微调。在第一种情况下,MoE 模型总体上不如具有相同计算能力的密集模型。然而,随着指令调优的引入(第二和第三种情况),FLAN-MoE_32B(Fine-tuned LAnguage Net,简写为 Flan,是一种经过指令调优的模型,Flan-MoE 即为指令调优 MoE)在四个基准任务上性能超过了 FLAN-PALM_62B,却只用了三分之一的 FLOPs。
如下图所示,在使用指令调优前,MoE→FT 不如 T5→FT。指令调优后,Flan-MoE→FT 优于 Flan-T5→FT。MoE 从指令调优中获得的收益 (+15.6) 大于密集模型 (+10.2):
看来 GPT-4 采用混合模型还是有点根据的,MoE 确实能够从指令调优中获得更大的收益:
方法概述
研究者在 FLAN-MOE (是一组经过指令微调的稀疏混合专家模型)模型中使用了稀疏激活 MoE(Mixture-of-Experts)。此外,他们还用 MoE 层替换了其他 Transformer 层的前馈组件。
每个 MoE 层可理解为一个「专家」,然后,使用 softmax 激活函数对这些专家进行建模,得到一个概率分布。
尽管每个 MoE 层有很多参数,但专家是稀疏激活的。这意味着对于给定的输入 token,只使用有限的专家子集就能完成任务,从而为模型提供了更大的容量。
对于具有 E 个专家的 MoE 层,这实际上提供了 O (E^2) 种不同的前馈网络组合,从而实现了更大的计算灵活性。
由于 FLAN-MoE 是经过指令调优的模型,因而指令调优非常重要,该研究在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。此外,该研究将每个 FLAN-MOE 的输入序列长度调整为 2048,输出长度调整为 512。
实验与分析
平均而言,在不增加任何额外计算的情况下,Flan-MoE 在所有模型尺度上都优于密集的同类产品 (Flan-T5)。
专家数量。图 4 显示,随着专家数量的增加,初始时,模型受益于更丰富的专门子网络,每个子网络能够处理问题空间中的不同任务或方面。这种方式使得 MoE 在处理复杂任务时具有很强的适应性和效率,从而整体上改善性能。然而,随着专家数量的不断增加,模型性能增益开始减少,最终达到饱和点。
图 3 和表 1 详细研究了不同的路由决策如何影响指令调优性能:通过 FLAN-Switch 和 FLAN-GS 策略之间的比较可以得出,激活更多的专家会在四个基准测试中提高性能。在这些基准测试中,MMLU-Direct 模型显示出最显著的改进,对于 BASE/LARGE 尺寸的模型,从 38.0% 增加到 39.9%。
值得注意的是,与等效容量的密集模型相比,指令调优显著放大了 MoE 模型在保留 MMLU、BBH 和内部 QA 和推理基准测试方面的性能。对于较大的 MoE 模型,这些优势进一步放大。例如,指令调优使 ST_32B 的性能提升了 45.2%,而对于 FLAN-PALM_62B,这种改进相对较小,约为 6.6%。
当进行模型扩展时,Flan-MoE (Flan-ST-32B) 优于 Flan-PaLM-62B 。
此外,该研究通过 freeze 给定模型的门控函数(gating function)、专家模块和 MoE 参数进行了一些分析实验。如下表 2 所示,实验结果表明,freeze 专家模块或 MoE 组件对模型性能有负面影响。
相反,freeze 门控函数会使模型性能略有改善,尽管并不明显。研究者推测这一观察结果与 FLAN-MOE 的欠拟合有关。该研究还进行了消融实验来探究下图 5 描述了微调数据效率消融研究。
最后,为了比较直接对 MoE 进行微调和 FLAN-MOE 之间的差距,该研究对单任务微调的 MoE、单任务微调的 FLAN-MoE 和密集模型进行了实验,结果如下图 6 所示:
感兴趣的读者可以阅读论文原文,了解更多研究内容。
大家都在看
-
工程机械 8种钢铁巨兽,你见过几个#机械设 大家好,相信大家在日常生活中无论如何都应该有看见过起重机、挖土机、拖拉机、卡车等各式各样的重型机械,它们大多数都比一般的车辆更为大型,可是又不至于大型到会让人过目不忘。今 机械之最04-27
-
徐州,长沙,柳州,谁是工程机械最强市?常 工程机械,不仅是“男人的玩具”,也是科技与力量的高度融合,同时也可能是一个城市的支柱产业。提到工程机械,即使不太了解的人,估计也能说出徐工、三一、卡特几个品牌,而中国工程 机械之最04-27
-
机械降神不止扫地僧,此人只出场一次,比神 金庸笔下有一群人,戏份很少出场不多,专门解决疑难杂症,这些人往往突然现身,又突然消失,都是武功卓绝的顶级高手,这类人被称为机械降神。最著名的便是天龙八部中的扫地神僧。少林 机械之最04-27
-
问题:钢丝绳是起重机械应用最广泛的挠性构 问题:钢丝绳是起重机械应用最广泛的挠性构件.参考答案如图所示 机械之最04-27
-
欧洲精密机械:几百年前的工艺巅峰之作 伯尔尼钟楼,也被称为时钟塔(Zytglogge),是瑞士伯尔尼的一座中世纪塔楼,始建于13世纪初。这座塔楼在历史上曾经作为城门守卫塔、监狱和钟楼使用,是城市生活和公民纪念的中心。尽 机械之最04-25
-
奥特曼们不再孤单,越来越多的机械同伴登场 在奥特曼系列中,面对这些身高和体型而巨大的怪兽们,人类终究只是渺小的,所以都只能够依靠奥特战士们去和怪兽们战斗。但是最近的几部奥特曼系列作品中,人类也开始研究出来了巨型机 机械之最03-26
-
2万吨多吊点桥式起重机获“世界之最” ▶2万吨多吊点桥式起重机。图片由受访单位提供近日,中国重型机械工业协会发布《关于2023年重型机械世界之最科技成果认定结果的公告》,其中,大连重工装备集团下属大连华锐重工集团 机械之最03-26
-
喜讯!太重自主研发产品入选“世界之最” 3月13日,太重集团公布喜讯,中国重型机械工业协会组织认定的“重型机械世界之最科技成果”名单出炉,由太重自主设计研发的“225兆牛卧式铝挤压机”成功入选,此次入选进一步巩固了太 机械之最03-22
-
矿业装备新突破!世界最大智能化自磨机“洛 “洛阳造”助力我国高端矿业装备取得新突破!近日从中信重工获悉,该企业自主研制的筒体内径12.2米大型高效智能化自磨机日前获得2023年重型机械世界之最科技成果认定,为世界最大智能 机械之最03-05
-
2680mm宽幅不锈钢热连轧生产线项目获得2023 近日,中国重型机械工业协会发布《关于2023年重型机械世界之最科技成果认定结果的公告》,中国一重申报的《2680mm宽幅不锈钢热连轧生产线项目》获得2023年重型机械世界之最科技成果的 机械之最03-01
相关文章
- 太重自主研发产品入选“世界之最”
- 大连重工装备集团多吊点桥式起重机项目获世
- 矿业装备新突破!世界最大智能化自磨机“洛
- 2680mm宽幅不锈钢热连轧生产线项目获得2023
- 值无不言:关于机械键盘的购买避坑指南,让
- 用了近30把机械键盘后选出5把个人最喜欢的
- 十年机械键盘发烧路,我用过的24款机械键盘
- 机械键盘扫盲贴,从100元到1000元的键盘,
- 中信重工产品获2023年重型机械世界之最科技
- CAP1400主管道荣获2023年重型机械世界之最
- 张雪峰对燕山大学的评价:机械工程是最优秀
- 震惊世界的国之重器 #世界之最
- 全球第三!中国工程机械“排头兵”徐工,为
- 2023年十大影响力名表:机械之美的极致作品
- 世界上最先进的纺纱机械?我国古代水转大纺
- 自然界中的微型机械奇迹之细菌鞭毛马达
- 德国的机械到底有多厉害!
- 世界最大履带起重机(第06名)#世界之最
- 武汉,消失的校牌之(14)——武汉机械学院
- 能让我动心的机械类文章着实不是很多
热门阅读
-
世界上最快的改装车:音速之风陆地极速车, 12-09
-
天下第一暗器暴雨梨花针,传说中的唐门暗器 07-13
-
世界上最快的公交车:迪拜超级巴士,时速超 12-09
-
世界十大大型船舶排名,第一能承重六十万吨 07-13
-
世界上最早的自动枪,马克沁重机枪最高射速 11-20
-
世界上寿命最短的大型航空母舰,短短的17个 04-26
-
美国枪店购买的百年名枪M1911 陨石制作一把 04-26