(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211530586.3
(22)申请日 2022.12.01
(71)申请人 阿里云计算有限公司
地址 310024 浙江省杭州市西湖区转塘科
技经济区块12号
(72)发明人 刁岚松 王思宇 曹宗雁 刘小勇
林伟
(74)专利代理 机构 北京展翼知识产权代理事务
所(特殊普通 合伙) 11452
专利代理师 张阳
(51)Int.Cl.
G06F 9/50(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
分布式执行深度学习任务的优化方法和分
布式系统
(57)摘要
公开了一种分布式执行深度学习任务的优
化方法和分布式系统。 所述方法包括: 基于深度
学习任务生成计算图并分配硬件资源; 对硬件资
源进行分组以获取至少一个分组方案; 针对每个
分组方案, 基于该分组方案下的因子取值对计算
图包含的多个算子各自涉及的张量信息进行切
分, 获取多个候选切分方案; 使用开销模型选出
效率最优的分布式执行切分方案, 用于硬件资源
的深度学习任务执行。 由此, 通过基于设备分组
的算子切分, 并结合基于开销模型的优化求解,
实现针对各类深度学习任务的分布式执行自动
优化。 进一步地, 可 以引入基于分组的计算图分
割, 还可以根据不同的优化水平对求解空间进行
限制, 由此能够在可控的时间内生成所需优化级
别的分布式执 行方案。
权利要求书3页 说明书25页 附图12页
CN 115543639 A
2022.12.30
CN 115543639 A
1.一种分布式执 行深度学习任务的优化方法, 包括:
基于深度学习任务 生成计算图并为所述深度学习任务的分布式执 行分配硬件资源;
对分配的所述硬件资源进行分组以获取至少一个分组方案, 每个分组方案包括对所述
硬件资源的设备 数进行因数分解得到的至少一个因子;
针对每个分组方案, 基于该分组方案下的至少一个因子和所述计算图包含的多个算子
各自涉及的张量信息, 获取多个候选切分方案, 其中, 所述多个候选切分方案是使用该分组
方案下的至少一个因子的值作为切分值, 对所述多个算子各自涉及的张量进 行不同维度上
的切分而获取的; 以及
使用开销模型, 从所述多个候选切分方案中选出效率最优的方案作为分布式执行切分
方案, 其中, 所述分布式执 行切分方案用于所述硬件资源 对所述深度学习任务的执 行。
2.如权利要求1所述的方法, 其中, 所述获取至少一种分组方案之后还 包括:
针对每个分组方案, 使用该分组方案下的至少一个因子的值作为分割值, 将所述计算
图分割成用于流水线并行 执行的多个阶段性子图。
3.如权利要求2所述的方法, 其中, 所述将所述计算图分割成用于流水线 并行执行的多
个阶段性子图包括:
评估计算图的分割位置以得到各自计算 耗时相同的所述多个阶段性子图。
4.如权利要求2所述的方法, 其中, 评估计算图的分割位置以得到各自计算耗 时相同的
所述多个阶段性子图包括:
选取所述计算图中的关键算子并统计所有关键算子的总计算 开销;
根据所述总计算 开销平均划分多个阶段性区间;
基于每个关键算子 本身及其前后关键算子计算 开销设置该关键算子的区间范围; 以及
以跨区间张量的总通信开销最小为目标求取使得每个关键算子都落入各自设置区间
范围内的优化 解作为所述分割位置 。
5.如权利要求1所述的方法, 其中, 针对每个分组方案, 基于该分组方案下的至少一个
因子和所述计算图包 含的多个算子各自涉及的张量信息, 获取多个候选切分方案, 包括:
统计多个算子各自涉及的训练参数输入张量的总存 储空间大小; 以及
在统计值超过预定阈值的情况下, 选择一个或多个训练参数输入张量进行切分, 获取
多个候选切分方案 。
6.如权利要求1或5所述的方法, 其中, 针对每个分组方案, 基于该分组方案下的至少一
个因子和所述计算图包 含的多个算子各自涉及的张量信息, 获取多个候选切分方案包括:
在当前分组方案包括多个因子的情况下, 使用所述多个因子 中的一个因子的值作为第
一切分值, 对所述计算图的多个算子各自涉及的张量进行不同维度上的一次切分; 以及
在一次切分的基础上, 使用所述多个因子中除用作第 一切分值的因子之外的一个其他
因子的值作为第二切分值, 对所述计算图的多个算子各自涉及的张量进 行不同维度上的二
次切分,
其中, 当前分组方案的所述多个候选切分方案基于多个算子的所述二 次切分排列组合
得到。
7.如权利要求1所述的方法, 其中, 所述多个候选切分方案是使用该分组方案下的至少
一个因子的值作为切分值, 对所述多个算子各自涉及的张量进行不同维度上的切分而获取权 利 要 求 书 1/3 页
2
CN 115543639 A
2的包括:
针对每个算子, 采用预设优化策略, 对该算子涉及的张量进行预设维度的切分, 得到一
组切分排列;
汇总所述计算图的每个算子的切分排列, 得到针对该分组方案下的切分排列组合, 将
该切分排列组合作为多个候选切分方案 。
8.如权利要求7所述的方法, 其中, 所述对该算子涉及的张量进行预设维度的切分包
括:
对该算子的张量中的一个或多个进行任一维度的切分, 或者不进行对该算子的张量切
分, 其中, 该算子涉及的张量包括该算子的输入张量和输出张量, 所述切分是基于所述切分
值在目标维度上的均匀 切分。
9.如权利要求8所述的方法, 其中, 所述预设优化策略包括以下多个策略中的至少一
个:
策略A) 将所述计算图划分为多个优化子图, 所述每 个优化子图中包括至少一个算子;
针对每个优化子图内的各算子的张量, 采用在该优化子图内不产生通信开销的的方式
进行切分;
策略B) 确定 至少一个关键算子, 对所述关键算子的张量进行任意维度的切分;
针对所述关键算子预定相邻范围内的其他算子, 采用在该预定相邻范围内不产生通信
开销的的方式进行切分; 以及
策略C) 从预设的规则库中筛 选出与当前计算图和/或张量匹配的规则;
基于匹配的规则进行当前计算图中关联算子的切分。
10.如权利要求9所述的方法, 其中, 所述预设的规则库中包括可扩展添加的启发式规
则。
11.如权利要求1所述的方法, 其中, 所述至少一个因子包括:
一个因子, 所述因子的取值对应于所述硬件资源 包括的硬件设备 数; 或者
多个因子, 所述多个因子取值的乘积对应于所述硬件资源 包括的硬件设备 数。
12.如权利要求1所述的方法, 其中, 对分配的所述硬件资源进行分组以获取至少一个
分组方案包括:
对所述硬件资源的设备数进行整数因式分解, 获取多个分组方案, 每个所述分组方案
的因式分解方案不相同。
13.如权利要求12所述的方法, 其中, 使用开销模型, 从所述多个候选切分方案选出效
率最优方案作为分布式执 行切分方案, 包括:
针对每个分组方案, 使用所述开销模型选取该分组方案下的效率最优的第 一候选切分
方案, 得到多个第一 候选切分方案; 以及
从所述多个第 一候选切分方案 中, 选出一个效率最优的第 二候选切分方案作为所述分
布式执行切分方案 。
14.如权利要求1所述的方法, 其中, 使用开销模型, 从所述多个候选切分方案选出效率
最优方案作为分布式执 行切分方案包括:
使用所述 开销模型, 基于通信开销和计算 开销筛选出效率 最优方案 。
15.如权利要求1所述的方法, 其中, 所述 候选切分方案的描述方式为:权 利 要 求 书 2/3 页
3
CN 115543639 A
3
专利 分布式执行深度学习任务的优化方法和分布式系统
文档预览
中文文档
41 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共41页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:40上传分享