专利分布式执行深度学习任务的优化方法和分布式系统 -在线下载 -pdf文件-u.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211530586.3 (22)申请日 2022.12.01 (71)申请人阿里云计算有限公司地址 310024 浙江省杭州市西湖区转塘科技经济区块12号 (72)发明人刁岚松　王思宇　曹宗雁　刘小勇　林伟　 (74)专利代理机构北京展翼知识产权代理事务所(特殊普通合伙) 11452 专利代理师张阳 (51)Int.Cl. G06F 9/50(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称分布式执行深度学习任务的优化方法和分布式系统 (57)摘要公开了一种分布式执行深度学习任务的优化方法和分布式系统。所述方法包括：基于深度学习任务生成计算图并分配硬件资源；对硬件资源进行分组以获取至少一个分组方案；针对每个分组方案，基于该分组方案下的因子取值对计算图包含的多个算子各自涉及的张量信息进行切分，获取多个候选切分方案；使用开销模型选出效率最优的分布式执行切分方案，用于硬件资源的深度学习任务执行。由此，通过基于设备分组的算子切分，并结合基于开销模型的优化求解，实现针对各类深度学习任务的分布式执行自动优化。进一步地，可以引入基于分组的计算图分割，还可以根据不同的优化水平对求解空间进行限制，由此能够在可控的时间内生成所需优化级别的分布式执行方案。权利要求书3页说明书25页附图12页 CN 115543639 A 2022.12.30 CN 115543639 A 1.一种分布式执行深度学习任务的优化方法，包括：基于深度学习任务生成计算图并为所述深度学习任务的分布式执行分配硬件资源；对分配的所述硬件资源进行分组以获取至少一个分组方案，每个分组方案包括对所述硬件资源的设备数进行因数分解得到的至少一个因子；针对每个分组方案，基于该分组方案下的至少一个因子和所述计算图包含的多个算子各自涉及的张量信息，获取多个候选切分方案，其中，所述多个候选切分方案是使用该分组方案下的至少一个因子的值作为切分值，对所述多个算子各自涉及的张量进行不同维度上的切分而获取的；以及使用开销模型，从所述多个候选切分方案中选出效率最优的方案作为分布式执行切分方案，其中，所述分布式执行切分方案用于所述硬件资源对所述深度学习任务的执行。 2.如权利要求1所述的方法，其中，所述获取至少一种分组方案之后还包括：针对每个分组方案，使用该分组方案下的至少一个因子的值作为分割值，将所述计算图分割成用于流水线并行执行的多个阶段性子图。 3.如权利要求2所述的方法，其中，所述将所述计算图分割成用于流水线并行执行的多个阶段性子图包括：评估计算图的分割位置以得到各自计算耗时相同的所述多个阶段性子图。 4.如权利要求2所述的方法，其中，评估计算图的分割位置以得到各自计算耗时相同的所述多个阶段性子图包括：选取所述计算图中的关键算子并统计所有关键算子的总计算开销；根据所述总计算开销平均划分多个阶段性区间；基于每个关键算子本身及其前后关键算子计算开销设置该关键算子的区间范围；以及以跨区间张量的总通信开销最小为目标求取使得每个关键算子都落入各自设置区间范围内的优化解作为所述分割位置。 5.如权利要求1所述的方法，其中，针对每个分组方案，基于该分组方案下的至少一个因子和所述计算图包含的多个算子各自涉及的张量信息，获取多个候选切分方案，包括：统计多个算子各自涉及的训练参数输入张量的总存储空间大小；以及在统计值超过预定阈值的情况下，选择一个或多个训练参数输入张量进行切分，获取多个候选切分方案。 6.如权利要求1或5所述的方法，其中，针对每个分组方案，基于该分组方案下的至少一个因子和所述计算图包含的多个算子各自涉及的张量信息，获取多个候选切分方案包括：在当前分组方案包括多个因子的情况下，使用所述多个因子中的一个因子的值作为第一切分值，对所述计算图的多个算子各自涉及的张量进行不同维度上的一次切分；以及在一次切分的基础上，使用所述多个因子中除用作第一切分值的因子之外的一个其他因子的值作为第二切分值，对所述计算图的多个算子各自涉及的张量进行不同维度上的二次切分，其中，当前分组方案的所述多个候选切分方案基于多个算子的所述二次切分排列组合得到。 7.如权利要求1所述的方法，其中，所述多个候选切分方案是使用该分组方案下的至少一个因子的值作为切分值，对所述多个算子各自涉及的张量进行不同维度上的切分而获取权　利　要　求　书 1/3 页 2 CN 115543639 A 2的包括：针对每个算子，采用预设优化策略，对该算子涉及的张量进行预设维度的切分，得到一组切分排列；汇总所述计算图的每个算子的切分排列，得到针对该分组方案下的切分排列组合，将该切分排列组合作为多个候选切分方案。 8.如权利要求7所述的方法，其中，所述对该算子涉及的张量进行预设维度的切分包括：对该算子的张量中的一个或多个进行任一维度的切分，或者不进行对该算子的张量切分，其中，该算子涉及的张量包括该算子的输入张量和输出张量，所述切分是基于所述切分值在目标维度上的均匀切分。 9.如权利要求8所述的方法，其中，所述预设优化策略包括以下多个策略中的至少一个：策略A）将所述计算图划分为多个优化子图，所述每个优化子图中包括至少一个算子；针对每个优化子图内的各算子的张量，采用在该优化子图内不产生通信开销的的方式进行切分；策略B）确定至少一个关键算子，对所述关键算子的张量进行任意维度的切分；针对所述关键算子预定相邻范围内的其他算子，采用在该预定相邻范围内不产生通信开销的的方式进行切分；以及策略C）从预设的规则库中筛选出与当前计算图和/或张量匹配的规则；基于匹配的规则进行当前计算图中关联算子的切分。 10.如权利要求9所述的方法，其中，所述预设的规则库中包括可扩展添加的启发式规则。 11.如权利要求1所述的方法，其中，所述至少一个因子包括：一个因子，所述因子的取值对应于所述硬件资源包括的硬件设备数；或者多个因子，所述多个因子取值的乘积对应于所述硬件资源包括的硬件设备数。 12.如权利要求1所述的方法，其中，对分配的所述硬件资源进行分组以获取至少一个分组方案包括：对所述硬件资源的设备数进行整数因式分解，获取多个分组方案，每个所述分组方案的因式分解方案不相同。 13.如权利要求12所述的方法，其中，使用开销模型，从所述多个候选切分方案选出效率最优方案作为分布式执行切分方案，包括：针对每个分组方案，使用所述开销模型选取该分组方案下的效率最优的第一候选切分方案，得到多个第一候选切分方案；以及从所述多个第一候选切分方案中，选出一个效率最优的第二候选切分方案作为所述分布式执行切分方案。 14.如权利要求1所述的方法，其中，使用开销模型，从所述多个候选切分方案选出效率最优方案作为分布式执行切分方案包括：使用所述开销模型，基于通信开销和计算开销筛选出效率最优方案。 15.如权利要求1所述的方法，其中，所述候选切分方案的描述方式为：权　利　要　求　书 2/3 页 3 CN 115543639 A 3

专利 分布式执行深度学习任务的优化方法和分布式系统

专利分布式执行深度学习任务的优化方法和分布式系统