分布式训练-张量模型并行

逃离我推掉我的手 2023-10-15 10:46 36阅读 0赞

发表评论取消回复

表情：

评论列表（有 0 条评论，36人围观）

还没有评论，来说两句吧...

相关阅读

相关 LLM-预训练：深入理解 Megatron-LM（5）张量并行

> 最近在基于Megatron-LM的代码来训练大语言模型，本人觉得Megatron的代码很具有学习意义，于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M

心已赠人/ 2024年02月21日 10:43/ 0 赞/ 64 阅读

相关图解大模型训练之：Megatron源码解读2，模型并行

在源码解读第一篇中，我们讲解了如何做分布式环境初始化，即按照DP/TP/PP对进程进行分组，并为每个进程指定GPU。在这一章中，我们将一起读模型并行部分：如何切分模型，并搬入分

电玩女神/ 2024年02月18日 09:22/ 0 赞/ 49 阅读

相关分布式训练-流水线并行

通常来讲，训练更大规模的网络模型可以在多种任务上取得更好的效果，如提升图像分类任务的准确率。然而，随着参数规模的扩大，AI 加速卡存储（如 GPU 显存）容量问题和卡的协同计算

叁歲伎倆/ 2023年10月15日 10:46/ 0 赞/ 15 阅读

相关分布式训练-张量模型并行

通常来讲，训练更大规模的网络模型可以在多种任务上取得更好的效果，如自然语言处理类任务的准确率。然而，训练更大规模的网络模型会消耗更多的显存资源，甚至是超过单个设备的显存容量，从

逃离我推掉我的手/ 2023年10月15日 10:46/ 0 赞/ 37 阅读

相关分布式训练-数据并行（4）：Gradient Merge

一、简介[¶][Link 1] 为了提升模型的性能，人们开始追求：更大规模的数据集、更深的网络层、更庞大的参数规模。但是随之而来的就是给模型训练带来了巨大的压力，因此分布

﹏ヽ暗。殇╰゛Y/ 2023年10月15日 10:46/ 0 赞/ 16 阅读

相关分布式训练-数据并行（2）：前向重计算

一、原理介绍[¶][Link 1] 反向计算：运行反向算子来计算参数(Parameter)的梯度。优化：应用优化算法以更新参数值。在前向计算过程中

╰半橙微兮°/ 2023年10月15日 10:46/ 0 赞/ 48 阅读

相关分布式训练-数据并行（3）：自动混合精度

传统上，深度学习训练通常使用 32 比特双精度浮点数`FP32` 作为参数、梯度和中间 Activation 等的数据存储格式。使用`FP32`作为数据存储格式，每个数据需要

逃离我推掉我的手/ 2023年10月15日 10:46/ 0 赞/ 82 阅读

相关分布式训练-数据并行（1）：原理和实践案例

数据并行是深度学习领域最常用的并行方法。在此策略下数据集被平均分为多份，每个卡上保存完整的模型参数并独立处理一份子数据集，以加速模型训练过程。一、原理介绍[¶][Link

待我称王封你为后i/ 2023年10月15日 10:46/ 0 赞/ 2 阅读

相关【TensorFlow】数据模型——张量（Tensor）

从`TensorFlow`的名字就可以看出，它是由`Tensor`和`Flow`两个部分组成，就可以看出它们的重要性。在`TensorFlow`中所有的数据都是通过张量的形式来

清疚/ 2023年08月17日 17:46/ 0 赞/ 178 阅读

相关 TensorFlow数据模型-张量

张量是TensorFlow管理数据的形式，可以被简单的理解为多维数组。零阶张量表示标量，一阶张量表示向量，n阶张量表示n维数组。张量并没有保存数字，保存的是运算结果的引用。例如

忘是亡心i/ 2022年06月02日 06:28/ 0 赞/ 226 阅读