GPT-4混合大模型?研究证明MoE+指令调优确实让大模型性能超群
机器之心报道
编辑:小舟、陈萍
谷歌、UC 伯克利等证明 MoE + 指令调优起到了 1 + 1 > 2 的效果。
自 GPT-4 问世以来,人们一直惊艳于它强大的涌现能力,包括出色的语言理解能力、生成能力、逻辑推理能力等等。这些能力让 GPT-4 成为机器学习领域最前沿的模型之一。然而,OpenAI 至今未公开 GPT-4 的任何技术细节。
上个月,「天才黑客」乔治・霍兹(George Hotz)在接受一家名为 Latent Space 的 AI 技术播客的采访时提到了 GPT-4,并称 GPT-4 其实是一个混合模型。具体来说,乔治・霍兹称 GPT-4 采用由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。

Latent Space 的采访内容。
这或许只是乔治・霍兹的一种推测,但这种模式确实有一定的合理性。最近,由来自谷歌、UC 伯克利、MIT 等机构的研究者联合发表的一篇论文证实:混合专家模型(MoE)与指令调优的结合能够让大型语言模型(LLM)的性能大幅提升。

论文地址:https://arxiv.org/pdf/2305.14705.pdf
稀疏混合专家模型是一种特殊的神经网络架构,可以在不增加推理成本的情况下,为大型语言模型(LLM)增加可学习的参数。指令调优(instruction tuning)是一种训练 LLM 遵循指令的技术。该研究发现 MoE 模型比密集模型更能从指令调优中获益,因此提出将 MoE 和指令调优结合起来。
该研究在三种实验设置下进行了实证研究,包括
在没有指令调优的情况下在单个下游任务进行直接微调;指令调优后对下游任务进行 in-context 少样本或零样本泛化;指令调优后对单个下游任务进行进一步微调。在第一种情况下,MoE 模型总体上不如具有相同计算能力的密集模型。然而,随着指令调优的引入(第二和第三种情况),FLAN-MoE_32B(Fine-tuned LAnguage Net,简写为 Flan,是一种经过指令调优的模型,Flan-MoE 即为指令调优 MoE)在四个基准任务上性能超过了 FLAN-PALM_62B,却只用了三分之一的 FLOPs。
如下图所示,在使用指令调优前,MoE→FT 不如 T5→FT。指令调优后,Flan-MoE→FT 优于 Flan-T5→FT。MoE 从指令调优中获得的收益 (+15.6) 大于密集模型 (+10.2):

看来 GPT-4 采用混合模型还是有点根据的,MoE 确实能够从指令调优中获得更大的收益:

方法概述
研究者在 FLAN-MOE (是一组经过指令微调的稀疏混合专家模型)模型中使用了稀疏激活 MoE(Mixture-of-Experts)。此外,他们还用 MoE 层替换了其他 Transformer 层的前馈组件。
每个 MoE 层可理解为一个「专家」,然后,使用 softmax 激活函数对这些专家进行建模,得到一个概率分布。
尽管每个 MoE 层有很多参数,但专家是稀疏激活的。这意味着对于给定的输入 token,只使用有限的专家子集就能完成任务,从而为模型提供了更大的容量。
对于具有 E 个专家的 MoE 层,这实际上提供了 O (E^2) 种不同的前馈网络组合,从而实现了更大的计算灵活性。
由于 FLAN-MoE 是经过指令调优的模型,因而指令调优非常重要,该研究在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。此外,该研究将每个 FLAN-MOE 的输入序列长度调整为 2048,输出长度调整为 512。
实验与分析
平均而言,在不增加任何额外计算的情况下,Flan-MoE 在所有模型尺度上都优于密集的同类产品 (Flan-T5)。

专家数量。图 4 显示,随着专家数量的增加,初始时,模型受益于更丰富的专门子网络,每个子网络能够处理问题空间中的不同任务或方面。这种方式使得 MoE 在处理复杂任务时具有很强的适应性和效率,从而整体上改善性能。然而,随着专家数量的不断增加,模型性能增益开始减少,最终达到饱和点。

图 3 和表 1 详细研究了不同的路由决策如何影响指令调优性能:通过 FLAN-Switch 和 FLAN-GS 策略之间的比较可以得出,激活更多的专家会在四个基准测试中提高性能。在这些基准测试中,MMLU-Direct 模型显示出最显著的改进,对于 BASE/LARGE 尺寸的模型,从 38.0% 增加到 39.9%。
值得注意的是,与等效容量的密集模型相比,指令调优显著放大了 MoE 模型在保留 MMLU、BBH 和内部 QA 和推理基准测试方面的性能。对于较大的 MoE 模型,这些优势进一步放大。例如,指令调优使 ST_32B 的性能提升了 45.2%,而对于 FLAN-PALM_62B,这种改进相对较小,约为 6.6%。

当进行模型扩展时,Flan-MoE (Flan-ST-32B) 优于 Flan-PaLM-62B 。

此外,该研究通过 freeze 给定模型的门控函数(gating function)、专家模块和 MoE 参数进行了一些分析实验。如下表 2 所示,实验结果表明,freeze 专家模块或 MoE 组件对模型性能有负面影响。

相反,freeze 门控函数会使模型性能略有改善,尽管并不明显。研究者推测这一观察结果与 FLAN-MOE 的欠拟合有关。该研究还进行了消融实验来探究下图 5 描述了微调数据效率消融研究。

最后,为了比较直接对 MoE 进行微调和 FLAN-MOE 之间的差距,该研究对单任务微调的 MoE、单任务微调的 FLAN-MoE 和密集模型进行了实验,结果如下图 6 所示:

感兴趣的读者可以阅读论文原文,了解更多研究内容。
大家都在看
-
玄武岩纤维为何能身价倍增?刘嘉麒院士科普解读 12月9日,由中国科协科普部、新疆科协联合主办的新疆科普专家报告团活动走进和田地区。中国科学院院士、中国科学院地质与地球物理研究所研究员刘嘉麒以《玄武岩纤维发展态势及应用前景》为题,带来一场干货满满的专 ... 机械之最12-12
-
地球上千公里深处可能存在重要原始水储库 记者从中国科学院广州地球化学研究所获悉,近日,该研究所科研团队通过构建国际领先的技术平台,首次通过高温高压实验,实现了对地下660公里的极端环境的模拟,发现地幔主要矿物布里奇曼石在高温下具有显著富水能力 ... 机械之最12-12
-
铁与血的羁绊——《战争机器5》通关有感 当凯的匕首刺入蜂拥族女王的核心,黎明之锤的光束撕裂天际,锡拉星的沙尘在胜利的余晖中缓缓沉降时,我握着控制器的手仍在微微颤抖。《战争机器5》的通关画面褪去后,留在心头的不是射击游戏常见的酣畅淋漓,而是一 ... 机械之最12-12
-
2400年前的“机械黑科技”让现代工程师直呼“内行”丨闪耀吧!中华宝藏 大河网讯(记者 赵檬 王怡潇)2400年前的古人如何运输千斤粮食?一枚静静躺在洛阳博物馆展柜里、直径仅4.2厘米的青铜齿轮,给出了超越想象的答案。这枚出土于战国粮仓遗址的“黑科技”文物,以其均匀分布的40个精密 ... 机械之最12-12
-
力学之父阿基米德:古希腊的科学奇才,流体静力学的开山鼻祖! 嘿,科学迷们!今天我们要聊的,是一位古希腊的超级大咖——阿基米德!他不仅是“力学之父”,还是“浮力定理”的发明者,更被誉为“数学界的高斯和牛顿的前辈”。这位古希腊的天才,究竟有多牛?让我们穿越时空,走 ... 机械之最12-11
-
“课本里的船政历史‘活’了!”(新视窗·培育服务消费新增长点) 图为中国船政文化园一景。福建船政文化管理委员会供图闽江潮起,马尾岸阔。清晨的阳光穿透百年榕树的虬枝,在锈迹斑斑的龙门吊上投下鎏金光影。中国船政文化园的大门刚开启,来自全国各地的游客已排起长队:福州八中 ... 机械之最12-11
-
会飞无人机、玩转短视频……这位82岁奶奶不一般 原标题:我奶奶是82岁无人机“飞手”(新媒视点)戴淑英正在操作植保无人机。新华社记者周牧、杜潇逸摄在安徽桐城新渡镇老梅村,如果你看到一位白发老人在田埂上操作农用无人机,从装电池、展开机翼、灌肥料,再到滑 ... 机械之最12-09
-
笔记本外接机械硬盘全攻略:老司机教你怎么选最划算! #笔记本能外接一个机械硬盘吗#最近看到今日头条上有人问 "笔记本能外接一个机械硬盘吗?" 这个问题,作为一个经常折腾电脑的老司机,我必须来好好跟大家聊聊这个话题。先给个明确的答案:当然可以! 而且现 ... 机械之最12-09
-
“五个高地”是怎样打造的?——来自通辽科尔沁大草原一线的调研报告 西辽河奔流不息,见证文明起源;科尔沁草原绿浪翻涌,激荡时代新声。在这片孕育了中华文明三大源头之一的沃土上,内蒙古自治区通辽市正以昂扬之姿,在祖国北疆筑起五个熠熠生辉的时代“高地”——从沙海变林海的生态 ... 机械之最12-09
-
外骨骼机器人怎样安全走入寻常百姓家? 泰山、黄山、长城等景区纷纷引入外骨骼设备,为游客提供登山助力;各类展会上,外骨骼替代拐杖帮助老年人行走的视频总能引发热议……今年以来,科技感十足的外骨骼机器人火爆出圈,万元以内的价格让很多消费者为之动 ... 机械之最12-09
相关文章
- 我们需要对AI“好好说话”吗
- 铁与血的羁绊——《战争机器5》通关有感
- 2400年前的“机械黑科技”让现代工程师直呼“内行”丨闪耀吧!中华宝藏
- 外骨骼机器人好用吗?
- 力学之父阿基米德:古希腊的科学奇才,流体静力学的开山鼻祖!
- “课本里的船政历史‘活’了!”(新视窗·培育服务消费新增长点)
- 中企承建非洲最长重载铁路桥顺利贯通
- 会飞无人机、玩转短视频……这位82岁奶奶不一般
- 笔记本外接机械硬盘全攻略:老司机教你怎么选最划算!
- 难忘工厂时光
- “项目式学习提升了我的工程思维”
- “五个高地”是怎样打造的?——来自通辽科尔沁大草原一线的调研报告
- 外骨骼机器人怎样安全走入寻常百姓家?
- 人民日报政策问答·回应关切:老旧小区电梯更新改造,有哪些新举措
- 《疯狂动物城》为什么好看?这里有我们爱看拟人化动物的科学解释
- 马斯克的脸装在机械犬上?这才是巴塞尔艺术节最“疯”的作品!
- 人在去世之前,为什么会“灵魂出窍”?
- 向未来生长——台州制造的跃迁与再造
- “羊圈超市”成“金子做的碗”!看玉树甘达的兴业密码
- A股工程机械板块谁是最具潜力的投资标的?
热门阅读
-
天下第一暗器暴雨梨花针,传说中的唐门暗器做出来了 07-13
-
世界十大大型船舶排名,第一能承重六十万吨! 07-13
