说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210842656.2 (22)申请日 2022.07.18 (71)申请人 山东大学 地址 250101 山东省济南市高新区舜华路 1500号 (72)发明人 殷泽坤 田浩东 花梦圆 刘小慧  刘卫国  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 赵妍 (51)Int.Cl. G06F 9/38(2006.01) G06F 9/30(2006.01) G06F 17/16(2006.01) G06F 30/20(2020.01)G06F 111/10(2020.01) (54)发明名称 基于神威架构的地震波模拟算法并行优化 方法及系统 (57)摘要 本发明涉及算法并行优化技术领域, 提供了 基于神威架构的地震波模拟算法并行优化方法 及系统, 包括: 将主内存中的连续区域的数据读 入从核中后, 进行从核级别的数据混洗; 将从核 内每个网格点内的用于地震波模拟的变量转化 为若干个向量化单元后, 进行地震波模拟。 不仅 能够减小地震波模拟过程中的访存 数据量, 而且 还提高了DMA的带宽 。 权利要求书1页 说明书7页 附图3页 CN 115390922 A 2022.11.25 CN 115390922 A 1.基于神威架构的地震 波模拟算法并行优化方法, 其特 征在于, 包括: 将主内存中的连续区域的数据读入从核中后, 进行从核 级别的数据混洗; 将从核内每个网格点内的用于地震波模拟的变量转化为若干个向量化单元后, 进行地 震波模拟。 2.如权利要求1所述的基于神威架构的地震波模拟算法并行优化方法, 其特征在于, 每 个从核通过DMA方式从主内存中读取 所在从核组的长列数据块; 所述长列数据块包括左Halo区、 右Halo区和从核所在从核组中的每个从核的目标计算 区。 3.如权利要求2所述的基于神威架构的地震波模拟算法并行优化方法, 其特征在于, 所 述从核级别的数据混洗的具体方法为: 一个从核组内的每个从核, 将所述长列数据块扩展为若干个短列数据块, 所述短列数 据块包括左Hal o区、 右Hal o区和一个 计算区; 将每个短列数据块 通过RMA通信分发给从核组内的从核。 4.如权利要求3所述的基于神威架构的地震波模拟算法并行优化方法, 其特征在于, 每 个从核接收到的所述短列数据块 为包含从核的目标计算区的短列数据块。 5.如权利要求3所述的基于神威架构的地震波模拟算法并行优化方法, 其特征在于, 所 述长列数据块扩展后得到的短列数据块的个数与从核组内包 含的从核数相同。 6.如权利要求1所述的基于神威架构的地震波模拟算法并行优化方法, 其特征在于, 采 用朴素的变量融合的向量化策略, 将从核内每个网格点内的用于地震波模拟的变量转化为 若干个向量 化单元。 7.如权利要求1所述的基于神威架构的地震波模拟算法并行优化方法, 其特征在于, 采 用混合型向量化策略, 将从核内每个网格点内的用于地震波模拟的变量转化为若干个向量 化单元。 8.基于神威架构的地震 波模拟算法并行优化系统, 其特 征在于, 包括: 协作访存模块, 其被配置为: 将主内存中的连续区域的数据读入从核中后, 进行从核级 别的数据混洗; 向量化模块, 其被配置为: 将从核内每个网格点内的用于地震波模拟的变量转化为若 干个向量 化单元后, 进行地震 波模拟。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执 行时实现如权利要求1 ‑7中任一项 所述的基于神威架构的地震波模拟算法 并行优化方法中 的步骤。 10.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7中任一项 所述的基 于神威架构的地震 波模拟算法并行优化方法中的步骤。权 利 要 求 书 1/1 页 2 CN 115390922 A 2基于神威架构的地震波 模拟算法并行优化方 法及系统 技术领域 [0001]本发明属于算法并行优化技术领域, 尤其涉及基于神威架构的地震波模拟算法并 行优化方法及系统。 背景技术 [0002]本部分的陈述仅仅是提供了与本发明相关的背景技术信息, 不必然构成在先技 术。 [0003]天然地震在 地球内部的传 播形式是地震波, 而科学家们在天然地震模拟的研究中 主要使用声波方程或弹性波方程来描述地震波的传播。 模拟天然地震不仅需要准确模拟地 震波的产生、 扩散和接触边界的过程, 还需要在计算机上实现地震模拟算法时对波动方程 进行空间和时间上的离 散化, 是一个非常复杂的过程。 [0004]高效的算法和充足的计算资源是地震快速响应系统的核心技术。 传统的有限差分 法(Finite  Difference  Method, FDM)具有高精度、 高效率、 易于编 程、 易于并行等特点。 然 而, 传统的FD M无法灵活地划分 网格, 尤其是复杂的起伏 地形。 针对上述缺点, 基于曲线网格 有限差分方法(Curved  Grid‑FDM,CG‑FDM), 牵引力镜像法被提出了, 并用于求解弹性波动 方程的二维、 三维问题。 该算法继承了传统FDM算法 的高精度、 高效率、 易于编程、 易于并行 等优点。 此外, CG ‑FDM比传统FDM更灵活, 其可以根据地形提供灵活的网格剖分。 [0005]高分辨的地震模拟需要大规模的并行计算, 这对计算资源提出了更高的要求。 神 威超级计算机具有强大 的并行计算能力, 通过并行编程技术对计算任务进行合理划分, 可 以实现快速、 高效的地震模拟。 尤其, 神威超级计算机可以完成数千万核的并行计算, 这为 高分辨率、 高频率地震 快速模拟提供了有力保障, 计算的地震烈度也更准确, 可以及时地为 相关应急部门提供 更可靠的灾害评估结果。 [0006]神威超级计算机使用的是神威处理器, 每个神威处理器装备了6个核组。 每个核组 包含了一个主核和64个从核。 在 存储方面, 主核存储层次包含寄存器、 数据缓存(cache)、 指 令cache以及数据和指令共用的2级cache、 主存等诸多层次。 与主核略有不同, 从核主要包 括了寄存器、 片上数据存储空间、 指令cache、 主存等存储层次。 其中片上数据存储空间 (LDM), 具有访问速度快、 延迟低和带宽高的特性, 如何充分发挥 LDM的性能是有效发挥从核 计算能力的关键问题。 在单个从核阵列内, 每个从核提供一个随机多址(Ran dom Multiple   Access, RMA)通信 机制来相互交换数据。 与直接存储器访问(Direct  Memory Access, DMA) 操作相比, RMA操作具有 更小的延迟和更高的带宽, 适合在相 邻的从核之间传输数据以减少 DMA操作。 新型申威处理器支持512 位的向量化处理单元, 达到了先进水平。 向量化运算简单 地来说, 就是计算核心可以使用一条硬件指令, 但是能够同时且一次性地运行多个标量运 算。 向量化操作能够将数据批量读取并且进 行一次性地运算操作, 不但能够提升由LD M加载 到寄存器中的数据的内存访问效率, 还能够提升计算效率。 [0007]但是, 现有的基于神威架构的地震 波模拟算法存在以下问题: [0008](1)在进行有限差分时, 每一个从核都要从主存取不连续的数据块到自己的LDM空说 明 书 1/7 页 3 CN 115390922 A 3

.PDF文档 专利 基于神威架构的地震波模拟算法并行优化方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于神威架构的地震波模拟算法并行优化方法及系统 第 1 页 专利 基于神威架构的地震波模拟算法并行优化方法及系统 第 2 页 专利 基于神威架构的地震波模拟算法并行优化方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:49:19上传分享
友情链接
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。