大规模高性能计算系统主动容错优化方法研究-豆柴文库

大规模高性能计算系统主动容错优化方法研究.doc

2024-06-11

10金币

15KB

4页

努力****爱敏

实名认证

内容提供者

1/4

2/4

3/4

4/4

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

大规模高性能计算系统主动容错优化方法研究近年来,为了应对各应用领域飞速增长的计算能力需求,高性能计算HPC（HighPerformanceComputing）系统的规模不断增大导致可靠性问题逐渐凸显,容错已成为新型HPC系统的必备能力。然而,系统规模增长导致故障率增加的同时,又会引起容错开销不断增大。如何解决容错导致HPC系统实际性能大幅下降的问题,已成为高性能计算面临的主要挑战之一。基于故障预测对可能出现的故障进行提前处理的容错方式被称为主动容错。与被动容错相比,主动容错能够降低相关容错操作的执行频率,在容错开销方面具备一定优势。随着HPC系统规模进一步增大,由于缺乏高效的主动故障处理方法PA（ProactiveAction）和相应的优化策略,现有主动容错方法的开销依然不理想。本文面向大规模HPC系统,对主动容错的开销优化方法进行了研究。本文的主要贡献和创新点有:1.提出了一种基于预测故障类型的主动容错方法PTFPF。针对PTFPF的优化问题,提出了开销平衡的PA选择策略OBPASS以及收益感知的两级主动检查点存储策略GTPCS。由于HPC系统会发生多种类型的故障,且目前尚不存在一种能够以较小开销处理所有类型故障的PA,采用单一PA的主动容错方法的开销并不理想。由于超大规模系统的故障率很高,这种主动容错方法被用于此类系统中时容错开销较大。本文对主动协同CR和任务迁移相结合的主动容错方法进行了研究,提出了一种基于预测故障类型的主动容错方法PTFPF,并提出了相应的优化方法。首先,针对预测故障类型失误问题对PTFPF开销的影响,本文建立了PTFPF的性能模型,并基于模型提出了开销平衡的PA选择策略OBPASS。OBPASS通过对不同PA的开销期望进行估计,使系统始终能够选择开销期望较小的PA处理预测结果。然后,本文针对PTFPF中检查点存储开销较大的问题,研究了多级主动检查点存储方法,并针对预测引擎误判故障等级的问题提出了收益感知的两级主动检查点存储策略GTPCS。GTPCS能够估算存储不同等级检查点可能产生的优化收益和额外开销,并能够基于估算结果推导存储等级的切换时机。针对PTFPF的有效性评估表明:在预测引擎无法准确判断故障类型的情况下,OBPASS能够降低PTFPF约8%的容错开销;系统物理处理器数量超过一百万的情况下,PTFPF相比于现有主动容错方法最多能够降低约20%的容错开销。针对多级主动检查点存储方法的有效性评估表明:GTPCS能够减少故障等级误判对两级PTFPF容错开销的影响;系统物理处理器数量达到两百万的情况下,基于GTPCS的两级主动检查点存储方法能够进一步降低PTFPF约12%的容错开销。2.研究了面向预测时间失真的主动非协同CR方法PUCRD,提出了极小集消息记录法MSL以及主动消息存储优化策略SPPML。由于潜在的多米诺效应问题,非协同CR需要与消息记录方法配合工作。针对现有消息记录方法开销较大的问题,本文面向主动容错提出了极小集消息记录法MSL,并基于MSL提出了主动消息记录方法PML。MSL能够基于预测引擎的定位能力,通过仅记录故障相关消息的方法减少消息记录开销。然后,为了进一步优化PUCRD的容错开销,本文研究了PML的消息存储优化问题,提出了一种主动消息存储优化策略SPPML。SPPML通过估计不同消息存储方式对PUCRD容错开销的影响,指导系统按需地调整消息存储方式。仿真结果表明:MSL能够降低PML约83%的消息记录开销;与HM<sub>PL</sub>方法相比,基于MSL的PML能够降低超过95%的消息记录开销;相对于传统消息存储策略,SPPML能够降低PUCRD约6%的容错开销。综合评估表明,在系统物理处理器数量超过一百万的情况下,PUCRD的容错开销比现有主动容错方法低约25%。3.研究了统一主动时间冗余容错方法UTPF,提出了常用时间冗余PA的统一性能模型UMTPA、常用时间冗余PA的统一运算周期优化方法UPOTP以及面向PML的UTPF最少分组策略MGSUP。由于现阶段缺乏能够统一描述主动时间冗余容错方法开销的抽象模型,本文基于层次化CR思路,研究了统一的主动时间冗余容错方法UTPF,并提出了常用时间冗余PA的统一性能模型UMTPA。UMTPA适用于三种常用的基于时间冗余的PA——主动协同CR、主动非协同CR以及任务迁移。为了进一步优化UTPF的开销,本文提出了常用时间冗余PA的统一运算周期优化方法UPOTP。UPOTP通过模型微分的方法对UTPF的最优运算周期进行估计。虽然本文通过研究发现PML的开销会随着分组数量的增加而降低,但由于增加分组数量会增加故障定位失误的概率,并且UTPF的开销无法随分组数量的增加而线性降低,UTPF不适合使用最大分组策略。为了平衡它们之间的关系,本文

相关资料

大规模高性能计算系统主动容错优化方法研究.doc

2024-06-01

15KB

大规模高性能计算系统主动容错优化方法研究.doc

2024-06-11

15KB

大规模高性能计算系统主动容错优化方法研究.doc

2024-03-23

15KB

大规模复杂过程系统的高性能优化理论与方法研究的综述报告.docx

大规模复杂过程系统的高性能优化理论与方法研究的综述报告随着计算机技术的不断发展，大规模复杂过程系统（Large-scaleComplexProcessSystem，LCPS）已经成为了高质量、高效率的工业制造和生产流程的标准。LCPS具有处理复杂多变的任务，并集成多种技术和设备以提高生产效率和质量的特点。然而，这些系统通常需要高度的耗能、高度的复杂度和高度的可靠性。因此，LCPS的性能优化设计是十分必要的。本文将综述LCPS的高性能优化理论与方法的研究，并讨论该领域的最新进展。首先，为了解决多指标决策问题

2024-09-20

10KB

大规模复杂过程系统的高性能优化理论与方法研究的任务书.docx

大规模复杂过程系统的高性能优化理论与方法研究的任务书任务书：大规模复杂过程系统的高性能优化理论与方法研究一、研究背景随着科技的快速发展，大规模复杂过程系统已经广泛应用于各行各业，包括生产制造、电力能源、交通运输、化工冶金等领域。这些系统是由大量的组件和子系统结合而成的，具有高度的耦合性、非线性性、多目标性和不确定性。因此，这些系统具有非常复杂的交互和动态特性。为了使这些系统能够高效、稳定地运行，并持续地提高其运行效率，需要研究和开发高性能优化理论和方法，以帮助优化控制和管理复杂过程系统。二、研究内容本研究

2024-10-08

11KB