LLM-预训练:Megatron-LM 中自定义流水线并行的切分方式

淩亂°似流年 2024-02-21 10:43 70阅读 0赞

发表评论

表情:
评论列表 (有 0 条评论,70人围观)

还没有评论,来说两句吧...

相关阅读

    相关 分布式训练-流水线

    通常来讲,训练更大规模的网络模型可以在多种任务上取得更好的效果,如提升图像分类任务的准确率。然而,随着参数规模的扩大,AI 加速卡存储(如 GPU 显存)容量问题和卡的协同计算