分布式训练-数据并行(4):Gradient Merge

﹏ヽ暗。殇╰゛Y 2023-10-15 10:46 16阅读 0赞

发表评论

表情:
评论列表 (有 0 条评论,16人围观)

还没有评论,来说两句吧...

相关阅读

    相关 分布式训练-流水线

    通常来讲,训练更大规模的网络模型可以在多种任务上取得更好的效果,如提升图像分类任务的准确率。然而,随着参数规模的扩大,AI 加速卡存储(如 GPU 显存)容量问题和卡的协同计算