设为首页收藏本站

大学生论坛-高校论坛

 找回密码
 立即注册
搜索
查看: 515769|回复: 0

分布式训练

[复制链接]

3

主题

3

帖子

19

积分

新手上路

Rank: 1

积分
19
发表于 2024-10-4 11:10:22 | 显示全部楼层 |阅读模式
    DP:完整模型,部分数据MP:部分模型,完整数据PP:模型分阶段,数据分小批次,形成流水线TP:张量级并行,处理单个大型操作

DP + MP:

    设备内:传输MP所需的中间激活值和梯度设备间:传输DP所需的梯度和更新后的模型参数
DP + PP:

    流水线内:传输PP所需的中间激活值、梯度和微批次元数据流水线间:传输DP所需的梯度和更新后的模型参数
DP + TP:

    TP组内:传输分片张量和同步信息TP组间:传输DP所需的梯度和更新后的模型参数
总结:

    DP主要传输完整的梯度和模型参数MP传输层间的中间结果和梯度PP传输阶段间的中间结果、梯度和控制信息TP传输分布式操作的部分结果和同步信息
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|大学生论坛-高校论坛 ( 鄂ICP备20000827号-2 )

GMT+8, 2025-5-24 01:25 , Processed in 0.077626 second(s), 20 queries .

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表