LLM-预训练：Megatron-LM 中自定义流水线并行的切分方式

淩亂°似流年 2024-02-21 10:43 70阅读 0赞

发表评论取消回复

表情：

评论列表（有 0 条评论，70人围观）

还没有评论，来说两句吧...

相关阅读

相关 LLM-预训练：Megatron-LM 中自定义流水线并行的切分方式

> 最近在研究 Megatron-LM 源码，本篇文章聊聊在 Megatron 中如何自定义流水线并行的切分方式。 Megatron-LM 代码版本：23.06 [http

淩亂°似流年/ 2024年02月21日 10:43/ 0 赞/ 71 阅读

相关 LLM-预训练：Megatron-LM （23.06版本）近期的改动

Megatron-LM 最新 release 的版本是 23.06： [https://github.com/NVIDIA/Megatron-LM/tree/23.06/me

淡淡的烟草味﹌/ 2024年02月21日 10:43/ 0 赞/ 57 阅读

相关 LLM-预训练：深入理解 Megatron-LM（5）张量并行

> 最近在基于Megatron-LM的代码来训练大语言模型，本人觉得Megatron的代码很具有学习意义，于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M

心已赠人/ 2024年02月21日 10:43/ 0 赞/ 64 阅读

相关 LLM-预训练：深入理解 Megatron-LM（3）代码结构

> 最近在基于Megatron-LM的代码来训练大语言模型，本人觉得Megatron的代码很具有学习意义，于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M

矫情吗；*/ 2024年02月21日 10:43/ 0 赞/ 77 阅读

相关 LLM-预训练：深入理解 Megatron-LM（4）并行设置

> 最近在基于Megatron-LM的代码来训练大语言模型，本人觉得Megatron的代码很具有学习意义，于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M

我不是女神ヾ/ 2024年02月21日 10:43/ 0 赞/ 78 阅读

相关 LLM-预训练：深入理解 Megatron-LM（2）原理介绍

> 最近在基于Megatron-LM的代码来训练大语言模型，本人觉得Megatron的代码很具有学习意义，于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M

清疚/ 2024年02月21日 10:43/ 0 赞/ 89 阅读

相关 LLM-预训练：深入理解 Megatron-LM（1）基础知识

> 最近在基于Megatron-LM的代码来训练大语言模型，本人觉得Megatron的代码很具有学习意义，于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M

忘是亡心i/ 2024年02月21日 10:43/ 0 赞/ 100 阅读

相关分布式训练-流水线并行

通常来讲，训练更大规模的网络模型可以在多种任务上取得更好的效果，如提升图像分类任务的准确率。然而，随着参数规模的扩大，AI 加速卡存储（如 GPU 显存）容量问题和卡的协同计算

叁歲伎倆/ 2023年10月15日 10:46/ 0 赞/ 15 阅读

相关 LLM-202210：GLM【开源双语预训练语言模型】

[《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》][GLM_ Gen

分手后的思念是犯贱/ 2023年09月27日 20:07/ 0 赞/ 174 阅读

相关 Pytorch预训练模型下载并加载（以VGG为例）自定义路径

简述一般来讲，Pytorch用torchvision调用vgg之类的模型话，如果电脑在cache（Pytorch硬编码的一个地址）（如果在环境变量中添加了`TORCH_

桃扇骨/ 2023年02月16日 05:51/ 0 赞/ 70 阅读