SXM 与 PCIe:最适合训练 LLM 的 GPU,如 GPT-4
什么是 NLP,什么是 LLM?
自然语言处理(NLP)是人工智能(AI)的一个分支,使机器能够理解和解释人类语言。深度学习的最新进展导致了大型语言模型(LLM)的出现,它显示了不可思议的自然语言理解能力,彻底改变了世界,对未来产生了重大影响。初创企业和公司已经选择在 NVIDIA 的专用硬件上训练这些 LLMs:DGX。
大型语言模型(LLM)是一种语言模型,由在大量无标签文本数据上训练的参数神经网络组成。最著名的 LLM 是 OpenAI 的 GPT(Generative Pre-trained Transformer)系列,它已经在数十亿字的基础上进行了训练,是 ChatGPT 的基础。各种应用以 GPT 为基础,建立了极具说服力的聊天机器人、总结器等。LLM 在广泛的 NLP 任务中表现出卓越的性能,如语言翻译、问题回答和文本生成。ChatGPT(最初在 GPT-3 上训练)和 ChatGPT Plus(在 GPT-4 上训练)在将人工智能带到公众和消费者的关注点上掀起了巨大的波澜。
使我们的计算机能够与我们的物理世界互动已经成为现实。LLMs 在各个行业都有大量的应用,如个性化的聊天机器人、客户服务自动化、情感分析和内容创作,甚至是代码。那么,为什么这些大型组织会选择 NVIDIA DGX?DGX 和传统的 PCIe GPU 之间有什么区别?
NVIDIA DGX/HGX 和 SXM GPU 外形尺寸
SXM 架构是一种高带宽插座式解决方案,用于将 NVIDIA Tensor Core 加速器连接到其专有的 DGX 和 HGX 系统。对于每一代 NVIDIA Tensor Core GPU(P100、V100、A800 以及现在的 H800),DGX 系统 HGX 板都配有 SXM 插座类型,为其匹配的 GPU 子卡实现了高带宽、电力输送等功能。
专门的 HGX 系统板通过 NVLink 将 8 个 GPU 互连起来,实现了 GPU 之间的高带宽。NVLink 的功能使 GPU 之间的数据流动速度极快,使它们能够像单个 GPU 野兽一样运行,无需通过 PCIe 或需要与 CPU 通信来交换数据。NVIDIA DGX H100 连接了 8 个 SXM5 H800,通过 4 个 NVLink 交换芯片,每个 GPU的带宽为 400 GB/s,总双向带宽超过 3.2 TB/s。每个 H100 SXM GPU 也通过 PCI Express 连接到 CPU,因此 8 个 GPU 中的任何一个计算的数据都可以转发回 CPU。我们将在后面介绍架构原理图。

英伟达 H100 PCIe 外形尺寸
你无法通过 H100 PCIe 配备的 NVLink Bridges 与 PCIe 变体实现同样的性能带宽连接。这些桥接器只能将 GPU 成对连接在一起,实现 400GB/s 的双向传输,而不是通过系统中的 8 个 GPU 实现完整的 400GB/s。
现在不要误解,NVIDIA H100 PCIe 是一个非常有能力的 GPU,可以轻松部署。它们可以很容易地被安装到重视升级的数据中心中,只需最小的架构变化。H100 NVL 扩展了强大的 PCIe 卡,将它们搭配在一起,总共有 188GB HBM3,具有与 H100 SXM5 相当的性能。
我们的系统经过了严格的测试和验证。探索 联泰集群 Hooper H100 解决方案,包括 SXM 和 PCIe 选项!
H100 SXM 和 PCIE 的区别
众所周知,在数据中心和人工智能行业,NVIDIA DGX 简直就是黄金。它是最好的,也是最强大的 AI 机器。最突出的就是 OpenAI 在其 NVIDIA DGX 系统上训练 ChatGPT。事实上,OpenAI 早在 2016 年就拿到了第一台 NVIDIA DGX-1。
大型企业对英伟达 DGX 趋之若鹜,并不是因为它很耀眼,而是因为它的扩展能力。SXM GPU 更适合规模化部署,八 个 H100 GPU 通过 NVLink 和 NVSwitch 互连技术完全互连。在 DGX 和 HGX 中,8 个 SXM GPU 的连接方式与 PCIe 不同;每个 GPU 与 4 个 NVLink Switch 芯片相连,基本上使所有的 GPU 作为一个大 GPU 运行。这种可扩展性可以通过英伟达 NVLink Switch 系统进一步扩展,以部署和连接 256 个 DGX H800,创建一个 GPU 加速的 AI 工厂。
另一方面,H100 NVL 中的 H100 PCIe,只有成对的 GPU 通过 NVLink Bridge 连接。GPU 1 只直接连接到 GPU 2,GPU 3 只直接连接到 GPU 4,等等。GPU 1 和 GPU 8 没有直接连接,因此只能通过 PCIe 通道进行数据通信,不得不利用 CPU 资源。英伟达 DGX 和 HGX 系统板上的所有 SXM GPU 都通过 NVLink Switch 芯片互联,因此在 GPU 之间交换数据时不会因为 PCIe 总线的限制而减慢速度。向 CPU 发送数据仍将通过 PCIe 通道进行。
通过在 GPU 之间交换数据时绕过 PCI Express 通道,速度极快的 SXM H100 GPU 可以实现最大的吞吐量,而且比其 PCIe 同行的速度更慢,非常适合用于训练有海量数据的极大型AI模型。电力的消耗和专有的外形尺寸是对峰值性能的权衡,可以延长训练和推理时间。但是,当涉及到开发大型语言模型,对使用你的服务的数百万人进行文本推断时,需要最高形式的计算,以确保稳定性、流畅性和可靠性。
你应该选择什么?H100 SXM 还是 H100 PCIe?
这要看你的用例了。大型语言模型和生成性人工智能需要非常高的性能。但是,用户数量、工作负荷和训练规模在挑选合适的系统方面起着很大作用。
英伟达 H100 的 DGX 和 HGX 最适合那些能够利用原始计算性能的组织,不会让任何东西浪费掉。在发挥其最大潜力的情况下,不断的训练、推理和操作可以迅速降低总拥有成本。
NVIDIA DGX 具有最佳的可扩展性,所提供的性能是任何其他服务器在其给定的外形尺寸中无法比拟的。将多个 NVIDIA DGX H100 与 NVSwitch 系统连接起来,可以将多个 DGX H100 扩展为 SuperPod,以实现极大型模型。NVIDIA DGX H100 的外形尺寸为 8U,配备双英特尔至强8480C,共 112 个CPU核心。NVIDIA DGX 是不可定制的,是全面人工智能计算基础设施的构建模块。有了 NVIDIA DGX,在训练 LLM 时可以轻松地进行扩展。更多的 DGX 相当于更快的训练和更强大的部署。
英伟达 HGX 在单一系统中提供了强大的 GPU 性能,为用户提供了定制的选择。HGX 平台是由特定的合作伙伴(如 联泰集群)提供的可定制平台,可提供客户所需的性能-- CPU、内存、存储、网络--同时仍然利用相同的 8x NVIDIA H100 SXM5 系统板(包括所有 NVLink 的好处)。这些系统可以满足数据中心的需求,可以选择自己的网卡、自己想要的 CPU 核心数量,有时还可以选择额外的存储。英伟达 HGX 在计算能力方面与 DGX 类似,同时还能满足大规模 LLM 训练的需要。
英伟达 H100 PCIe 变体适用于那些工作负荷较小、希望在决定系统中的 GPU 数量方面获得最大灵活性的用户。在性能方面,这些 GPU 仍然很强大。它的原始性能数字略低,但由于易于安装到任何计算基础设施中,因此这些 GPU 非常引人注目。H100 PCIe 还提供较小的外形尺寸,如 1U 和 2U,供数据中心在单 CPU 或双 CPU 配置中使用 2x 或 4x GPU,为小型 LLM 开发提供计算能力。更多的 1 :1 的 CPU 与 GPU 比例有利于在推理中部署更多的虚拟化功能,以及分析等一系列不同的应用。

A100\H100在中国大陆基本上越来越少,A800目前也在位H800让路,如果确实需要A100\A800\H100\H800GPU,建议就不用挑剔了,HGX 和 PCIE 版对大部分使用者来说区别不是很大,有货就可以下手了。
无论如何,选择正规品牌厂商合作,在目前供需失衡不正常的市场情况下,市面大部分商家是无法供应的,甚至提供不属实的信息,如果是科研服务器的话首选风虎云龙科研服务器,入围政采,品质和售后服务都有保障。
欢迎交流 陈经理【173-1639-1579】
整理了一些深度学习,人工智能方面的资料,可以看看
一文看懂英伟达A100、A800、H100、H800各个版本有什么区别? - 知乎 (zhihu.com)
机器学习、深度学习和强化学习的关系和区别是什么? - 知乎 (zhihu.com)
人工智能 (Artificial Intelligence, AI)主要应用领域和三种形态:弱人工智能、强人工智能和超级人工智能。
买硬件服务器划算还是租云服务器划算? - 知乎 (zhihu.com)
深度学习机器学习知识点全面总结 - 知乎 (zhihu.com)
自学机器学习、深度学习、人工智能的网站看这里 - 知乎 (zhihu.com)
2023年深度学习GPU服务器配置推荐参考(3) - 知乎 (zhihu.com)
多年来一直专注于科学计算服务器,入围政采平台,H100、A100、H800、A800、RTX6000 Ada,单台双路192核心服务器有售,
机器学习:一切通过优化方法挖掘数据中规律的学科。
深度学习:一切运用了神经网络作为参数结构进行优化的机器学习算法。
监督学习、无监督学习和强化学习分别是机器学习中三个重要的课题。
强化学习:不仅能利用现有数据,还可以通过对环境的探索获得新数据,并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对环境进行探索,而探索是为了获取数据进行更好的学习。
可以学习和模拟人类的人工智能通常是由深度学习+强化学习实现的。 在算法方面,人工智能最重要的算法仍是神经网络。
多年来一直专注于科学计算服务器,入围政采平台,H100、A100、H800、A800、RTX6000 Ada,单台双路192核心服务器有售。
大家都在看
-
颜值即正义 五款长在审美点上的硬核轻武 哪一把是你的梦中情枪? 在冰冷的钢铁世界里,武器从来不仅仅是冰冷的杀戮工具。当精密的机械逻辑碰撞上极致的工业设计,这些由钢铁与火药淬炼而成的造物,便升华成了让无数人痴迷的艺术品。有那么五款名枪,它们跨越了时代的硝烟,仅仅凭借 ... 机械之最03-15
-
机械铸魂 铁路传薪——探访北京交通大学大学生机械博物馆 神州高铁模型与穿隧道变位平台运架一体机电影放映机光学经纬仪世界上独一无二的八音盒志愿者亲手复原的纺车美国早期马鞍形车床穿隧道变位平台运架一体机国产自动号码机、美国产打票机双筒望远镜打字机墙手摇计算机群 ... 机械之最03-15
-
从鸡舍到餐桌,一枚让人放心的鸡蛋要经过几道关? 数据来源:国家蛋鸡产业技术体系清晨,百姓餐桌上,白煮蛋冒着热气;餐饮店后厨内,鸡蛋煎炒烹炸出家常美味;烘焙间里,金黄色蛋液被均匀打发……鸡蛋,中国人餐桌上不可缺少的主角之一。而今,中国人的买蛋习惯正在 ... 机械之最03-15
-
记者“养虾”手记:体验五天,发现目前“龙虾”并不适合普通用户 记者使用AI生成。近期,“养龙虾”热潮来袭,不少用户在“FOMO(害怕错过)”情绪下涌入“养虾”市场,甚至不惜花钱也要部署OpenClaw。“龙虾”究竟好不好用?有多“费钱”?是否会泄露隐私?对此,新京报贝壳财经记 ... 机械之最03-15
-
机械五虎谁能称王?清华、哈工大硬刚985,这些名校分化有多猛 如果你家孩子问机械工程要读哪,很多人估计第一反应就是清北、哈工大吧。但真想好报志愿,光看985还是211没啥用,要深挖里面的门道。现在全国能发机械工程博士学位的高校,加起来一共有93所,更别说还有189所学校搞 ... 机械之最03-15
-
亮黑伯莱塔92X 意式优雅与战术美学的碰撞 黑曜石般的钢铁艺术 在手枪设计的漫长画卷中,伯莱塔(Beretta)始终是那个能够将致命武力与艺术美感缝合得严丝合缝的工匠。如果说经典的92FS是身披迷彩、立下赫赫战功的沙场老兵,那么亮黑版伯莱塔92X则是走进二十一世纪的现代精英。它 ... 机械之最03-15
-
2026广西机械类报考:哪所大学就业最香?最新录取数据曝光! 各位家长、同学好,我是专注广西高考报考的指导老师。这几天咨询群里,机械类专业的热度很高。确实,机械是工业的基石,从汽车制造到智能装备,从工程机械到机器人,机械类人才的就业面非常宽。但问题来了:广西开机 ... 机械之最03-15
-
夜读丨这只被全网心疼的小猕猴,让我们看到拥抱的意义 近日,一只名叫Punch的小猕猴在网络中走红。它刚一出生就被母亲抛弃,不被猴群接纳,玩耍时甚至被同类殴打,公园管理员没办法,只得给它一个毛绒猩猩玩偶作为“母亲”的代替品。Punch无论走到哪,都抱着那只毛绒猩猩 ... 机械之最03-15
-
机械类专业别乱选!12个热门方向全梳理,就业好坏一眼看清 高考填报志愿打算选机械方向的考生和家长,一定要先弄清楚专业差异!很多人以为机械都是一样的,实际上不同方向未来就业、薪资、发展天差地别,有的进大厂拿高薪,有的只能做传统技工。今天把机械类最实用的专业方向 ... 机械之最03-15
-
“龙虾”接管电脑的5分钟里,他的电脑被陌生人连了139次 “保护环境。”当你给AI发送这样一条极度简单、语义模糊的指令后,你期待它给你怎样的回应?解释环保的概念?给出保护环境的建议?慷慨激昂地发表一番绿色地球宣言?如果它没做这些,反而是悄无声息地删掉你一部分文 ... 机械之最03-13
相关文章
- 【史海回眸】泰缅“死亡铁路”,日军暴行铁证
- 第51届日内瓦国际发明展开幕 中国参展规模创新高
- 云深处科技的机器马有何特别之处
- 来时的路(一):第一机械工业部,那个管得最宽的“一机部”
- 独家!探秘创下五大“世界之最”的中国深海“蛟龙”
- 火骨纸魂、跃夜成光,五经富烟花火龙非遗重生全记录
- 世界肾脏日
- 商鞅变法,最狠的改革,把弱秦变成战争机器
- 向新求质 三明工业稳健前行
- P08炮兵型 当优雅鲁格遇上长枪管 它是手枪界的“狙击精英”
- 对比多家裁断机供应商,最终还是选智成!原因很实在
- Nikon FM2:机械之心,永恒之魂
- 经常挖鼻孔,后来都怎么样了?有这种情况的人真的要注意了
- 别再盲目劝退机械!大学生选对这几个方向,越老越吃香薪资节节高
- “封龙”何以变“飞龙”——石家庄五大产业跃升记
- “6G网要来了”热搜第一!研发进入关键期,还要破解哪些难题
- “养龙虾”爆火之后,别把技术幻想当成生产力现实
- 阿基米德:喊“我找到了”古希腊狂人,杠杆和浮力都是他发明的!
- 小变化中的大图景——六位全国人大代表履职中的“微光”与“星河”
- 刀尖角:车刀里的 “隐形强者”,决定刀具寿命的关键密码
热门阅读
-
天下第一暗器暴雨梨花针,传说中的唐门暗器做出来了 07-13
-
汽车投诉排行榜前十名汽车 问题最多的就是这些车 07-13
-
世界上最牛挖掘机,甚至可以挖穿一座城市 11-05
-
世界最大核潜艇制造厂,产量远超中美法 11-20
