书生·浦语社区常见问题及解答

谁践踏了优雅 2024-02-18 09:21 131阅读 0赞

1. 资源耗费问题

▶**20B 模型部署、低成本微调和全量微调大概需要多少的 GPU 资源?**

模型部署:3090 等 24G 显卡能够顺畅的使用 LMDeploy 对 internlm-20b 进行 4 bit 量化和部署推理,在不量化的情况下推理大概需要 50G 左右的显存,可用单卡 A100 或者四卡 3090 进行推理部署。

低成本微调:使用 XTuner 中的实现的 QLora 方法对 20B 模型微调,24G 的 3090 显卡能满足基本需求,但是在模型 Merge QLora 权重和原始权重阶段显存占用会超过 40G,可以考虑使用显存更大的卡(如单卡 A100 或者四卡 3090),或使用 offload (—offload-folder)技巧将模型加载至内存或硬盘。在前期学习阶段建议使用 internlm-7b 在 3090 等 24 G 显卡上进行实验测试。

全量微调:8 卡 A100 基本能满足 internlm 20b 模型的全量微调需求。

▶**internlm-chat-20b 4 bit 量化模型相比不量化的模型效果差多少?**

internlm

发表评论

表情:
评论列表 (有 0 条评论,131人围观)

还没有评论,来说两句吧...

相关阅读