这是《YPS行业门户系统》综合演示网站
您好!欢迎光临YPS行业综合门户☺ [免费注册] [登录]
打造中国第一行业门户,助您问鼎行业巅峰!

DeepSeek开源进度4/5:DualPipe、EPLB优化并行策略

来源:YPS数据挖掘大师   2025-02-27   浏览:160   字号:T|T
摘要:YPS行业门户系统2月27日消息,DeepSeek“开源周”的进度今日来到4/5,此次开源了优化并行策略的项目。具体如下:DualPipe-一种用于V3/R1训练中计算-通信重叠的双向管道并行算法。EPLB-一种用于V3/R1的专家并行负载平衡器。分析V3/R1中的计算-通信重叠。YPS行业门户系统附具体项目介绍和链接如下:DualPipe:“双管道(DualPipe)”是在《深度搜索-V3技术报……
  YPS行业门户系统 2 月 27 日消息,DeepSeek“开源周”的进度今日来到 4/5,此次开源了优化并行策略的项目。

  具体如下:

  DualPipe - 一种用于 V3 / R1 训练中计算-通信重叠的双向管道并行算法。

  EPLB - 一种用于 V3 / R1 的专家并行负载平衡器。

  分析 V3 / R1 中的计算-通信重叠。

  YPS行业门户系统附具体项目介绍和链接如下:

  DualPipe:

  “双管道(DualPipe)”是在《深度搜索-V3 技术报告》中引入的一种创新的双向流水线并行算法。它实现了正向和反向计算-通信阶段的完全重叠,同时也减少了流水线气泡。

  专家并行负载均衡器(EPLB) :

  在使用专家并行(EP)时,不同的专家被分配到不同的 GPU。由于不同专家的负载可能因当前工作负载而异,因此保持不同 GPU 的负载平衡非常重要。正如在 DeepSeek-V3 论文中所述,我们采用冗余专家策略,复制高负载的专家。然后,我们通过启发式方法将复制的专家分配到 GPU 上,以确保不同 GPU 之间的负载平衡。此外,由于 DeepSeek-V3 中使用了分组受限的专家路由,我们还尽可能尝试将同一组的专家放置在同一节点上,以减少节点间的数据流量。为了便于复现和部署,我们在 eplb.py 中开源了我们部署的 EP 负载均衡算法。该算法根据估计的专家负载计算平衡的专家复制和放置计划。请注意,预测专家负载的确切方法不在此存储库的范围内。一种常见的方法是使用历史统计数据的移动平均值。

  分析 V3 / R1 中的计算-通信重叠:

  在这里,我们公开分享来自我们的训练和推理框架的分析数据,以帮助社区更好地理解通信-计算重叠策略和底层实现细节。
关于

DeepSeek开源进度4/5:DualPipe、EPLB优化并行策略

相关信息
  • 肯定级别:
    • 肯定级别5分
    • 1
    • 2
    • 3
    • 4
    • 5
    评论者:  登录   游客
  • 提示:计算输入长度时包括格式代码。
    /800
  • 验证码: 验证码  
登录名:
密 码:
验证码: 验证码
业务流程
支付方式
快速链接
常见问题
服务与支持
咨询热线:0532-88781131 15166683288 13963906391
[YPS大型行业门户网站系统] 打造中国第一行业门户,助您问鼎行业巅峰!
未经授权禁止抄袭、镜像本站.  如有违反,追究法律责任.
Copyright ©2012
yps.yuhou.cn
[ YPS行业综合门户 ]