专利 基于神威架构的地震波模拟算法并行优化方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210842656.2 (22)申请日 2022.07.18 (71)申请人山东大学地址 250101 山东省济南市高新区舜华路 1500号 (72)发明人殷泽坤　田浩东　花梦圆　刘小慧　刘卫国　 (74)专利代理机构济南圣达知识产权代理有限公司 372 21 专利代理师赵妍 (51)Int.Cl. G06F 9/38(2006.01) G06F 9/30(2006.01) G06F 17/16(2006.01) G06F 30/20(2020.01)G06F 111/10(2020.01) (54)发明名称基于神威架构的地震波模拟算法并行优化方法及系统 (57)摘要本发明涉及算法并行优化技术领域，提供了基于神威架构的地震波模拟算法并行优化方法及系统，包括：将主内存中的连续区域的数据读入从核中后，进行从核级别的数据混洗；将从核内每个网格点内的用于地震波模拟的变量转化为若干个向量化单元后，进行地震波模拟。不仅能够减小地震波模拟过程中的访存数据量，而且还提高了DMA的带宽。权利要求书1页说明书7页附图3页 CN 115390922 A 2022.11.25 CN 115390922 A 1.基于神威架构的地震波模拟算法并行优化方法，其特征在于，包括：将主内存中的连续区域的数据读入从核中后，进行从核级别的数据混洗；将从核内每个网格点内的用于地震波模拟的变量转化为若干个向量化单元后，进行地震波模拟。 2.如权利要求1所述的基于神威架构的地震波模拟算法并行优化方法，其特征在于，每个从核通过DMA方式从主内存中读取所在从核组的长列数据块；所述长列数据块包括左Halo区、右Halo区和从核所在从核组中的每个从核的目标计算区。 3.如权利要求2所述的基于神威架构的地震波模拟算法并行优化方法，其特征在于，所述从核级别的数据混洗的具体方法为：一个从核组内的每个从核，将所述长列数据块扩展为若干个短列数据块，所述短列数据块包括左Hal o区、右Hal o区和一个计算区；将每个短列数据块通过RMA通信分发给从核组内的从核。 4.如权利要求3所述的基于神威架构的地震波模拟算法并行优化方法，其特征在于，每个从核接收到的所述短列数据块为包含从核的目标计算区的短列数据块。 5.如权利要求3所述的基于神威架构的地震波模拟算法并行优化方法，其特征在于，所述长列数据块扩展后得到的短列数据块的个数与从核组内包含的从核数相同。 6.如权利要求1所述的基于神威架构的地震波模拟算法并行优化方法，其特征在于，采用朴素的变量融合的向量化策略，将从核内每个网格点内的用于地震波模拟的变量转化为若干个向量化单元。 7.如权利要求1所述的基于神威架构的地震波模拟算法并行优化方法，其特征在于，采用混合型向量化策略，将从核内每个网格点内的用于地震波模拟的变量转化为若干个向量化单元。 8.基于神威架构的地震波模拟算法并行优化系统，其特征在于，包括：协作访存模块，其被配置为：将主内存中的连续区域的数据读入从核中后，进行从核级别的数据混洗；向量化模块，其被配置为：将从核内每个网格点内的用于地震波模拟的变量转化为若干个向量化单元后，进行地震波模拟。 9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1 ‑7中任一项所述的基于神威架构的地震波模拟算法并行优化方法中的步骤。 10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求 1‑7中任一项所述的基于神威架构的地震波模拟算法并行优化方法中的步骤。权　利　要　求　书 1/1 页 2 CN 115390922 A 2基于神威架构的地震波模拟算法并行优化方法及系统技术领域 [0001]本发明属于算法并行优化技术领域，尤其涉及基于神威架构的地震波模拟算法并行优化方法及系统。背景技术 [0002]本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。 [0003]天然地震在地球内部的传播形式是地震波，而科学家们在天然地震模拟的研究中主要使用声波方程或弹性波方程来描述地震波的传播。模拟天然地震不仅需要准确模拟地震波的产生、扩散和接触边界的过程，还需要在计算机上实现地震模拟算法时对波动方程进行空间和时间上的离散化，是一个非常复杂的过程。 [0004]高效的算法和充足的计算资源是地震快速响应系统的核心技术。传统的有限差分法(Finite Difference Method， FDM)具有高精度、高效率、易于编程、易于并行等特点。然而，传统的FD M无法灵活地划分网格，尤其是复杂的起伏地形。针对上述缺点，基于曲线网格有限差分方法(Curved Grid‑FDM,CG‑FDM)，牵引力镜像法被提出了，并用于求解弹性波动方程的二维、三维问题。该算法继承了传统FDM算法的高精度、高效率、易于编程、易于并行等优点。此外， CG ‑FDM比传统FDM更灵活，其可以根据地形提供灵活的网格剖分。 [0005]高分辨的地震模拟需要大规模的并行计算，这对计算资源提出了更高的要求。神威超级计算机具有强大的并行计算能力，通过并行编程技术对计算任务进行合理划分，可以实现快速、高效的地震模拟。尤其，神威超级计算机可以完成数千万核的并行计算，这为高分辨率、高频率地震快速模拟提供了有力保障，计算的地震烈度也更准确，可以及时地为相关应急部门提供更可靠的灾害评估结果。 [0006]神威超级计算机使用的是神威处理器，每个神威处理器装备了6个核组。每个核组包含了一个主核和64个从核。在存储方面，主核存储层次包含寄存器、数据缓存(cache)、指令cache以及数据和指令共用的2级cache、主存等诸多层次。与主核略有不同，从核主要包括了寄存器、片上数据存储空间、指令cache、主存等存储层次。其中片上数据存储空间 (LDM)，具有访问速度快、延迟低和带宽高的特性，如何充分发挥 LDM的性能是有效发挥从核计算能力的关键问题。在单个从核阵列内，每个从核提供一个随机多址(Ran dom Multiple Access， RMA)通信机制来相互交换数据。与直接存储器访问(Direct Memory Access， DMA) 操作相比， RMA操作具有更小的延迟和更高的带宽，适合在相邻的从核之间传输数据以减少 DMA操作。新型申威处理器支持512 位的向量化处理单元，达到了先进水平。向量化运算简单地来说，就是计算核心可以使用一条硬件指令，但是能够同时且一次性地运行多个标量运算。向量化操作能够将数据批量读取并且进行一次性地运算操作，不但能够提升由LD M加载到寄存器中的数据的内存访问效率，还能够提升计算效率。 [0007]但是，现有的基于神威架构的地震波模拟算法存在以下问题： [0008](1)在进行有限差分时，每一个从核都要从主存取不连续的数据块到自己的LDM空说　明　书 1/7 页 3 CN 115390922 A 3

专利 基于神威架构的地震波模拟算法并行优化方法及系统

专利基于神威架构的地震波模拟算法并行优化方法及系统