一种基于GPU的深度学习算法的性能优化方法及装置-豆柴文库

一种基于GPU的深度学习算法的性能优化方法及装置.pdf

2023-07-23

10金币

487KB

15页

景山****魔王

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114418827A(43)申请公布日2022.04.29(21)申请号202111572333.8(22)申请日2021.12.21(71)申请人北京奇艺世纪科技有限公司地址100080北京市海淀区北一街2号爱奇艺创新大厦10、11层(72)发明人闻磊(74)专利代理机构北京集佳知识产权代理有限公司11227代理人吴晓静(51)Int.Cl.G06T1/20(2006.01)G06N20/00(2019.01)权利要求书2页说明书10页附图2页(54)发明名称一种基于GPU的深度学习算法的性能优化方法及装置(57)摘要本申请提供了一种基于GPU的深度学习应用的性能优化方法及装置，该方案在GPU加载深度学习应用对应的汇编指令的过程中，将该汇编指令中的第一目标汇编指令替换为第二目标汇编指令。执行指令时，只需执行第二目标汇编指令，不再执行第一目标汇编指令，而且，执行完第二目标汇编指令后，按顺序继续执行第一目标汇编指令之后的其它汇编指令，从而实现改变GPU中高性能函数库的执行逻辑得到新的算子。由上述过程可见，该方案是将新算子与GPU中高性能函数库相结合，使得新算子也能达到较高的计算性能，该方案既能够满足GPU对新算子的支持，即通用性，同时，提高了GPU执行新算子时的整体性能，即达到高性能。CN114418827ACN114418827A权利要求书1/2页1.一种基于图形处理器的深度学习应用的性能优化方法，其特征在于，所述方法包括：在将深度学习应用中待优化算子对应的汇编指令加载至GPU的寄存器时，将所述汇编指令中的第一目标汇编指令替换为第二目标汇编指令，所述第一目标汇编指令是所述待优化算子包含的待优化汇编指令，所述第二目标汇编指令是优化后的汇编指令，且不属于所述待优化算子；当执行所述第二目标汇编指令后，执行所述第一目标汇编指令之后的其他汇编指令。2.根据权利要求1所述的方法，其特征在于，所述将所述汇编指令中的第一目标汇编指令替换为第二目标汇编指令，包括：在第二存储空间存储所述第二目标汇编指令，其中，所述第二目标汇编指令；将第一跳转指令存储至用于存储所述第一目标汇编指令的第一存储空间，所述第一跳转指令用于跳转至所述第二存储空间。3.根据权利要求2所述的方法，其特征在于，当所述执行所述第二目标汇编指令后，执行所述第一目标汇编指令相邻的下一个汇编指令，包括：将第二跳转指令存储至所述第二存储空间的下一个可用存储空间，所述第二跳转指令用于跳转至第三存储空间，其中，所述第三存储空间存储有所述第一目标汇编指令的下一条汇编指令；执行所述第二跳转指令跳转至所述第三存储空间，并执行所述第三存储空间存储的汇编指令。4.根据权利要求1‑3任一项所述的方法，其特征在于，所述第一目标汇编指令为第一类数据读取指令，所述第二目标汇编指令为所述第二类数据读取指令，其中，所述第一类数据读取指令与所述第二类数据读取指令的读取逻辑不同。5.根据权利要求1‑3任一项所述的方法，其特征在于，所述第一目标汇编指令为第一类数据输出指令，所述第二目标汇编指令为第二类数据输出指令，所述第一类数据输出指令与所述第二类数据输出指令的输出逻辑不同。6.根据权利要求2所述的方法，其特征在于，确定所述第一目标汇编指令对应的第一存储空间的过程，包括：确定所述待优化算子对应的汇编指令的存储地址段，从所述存储地址段中查找出所述第一目标汇编指令对应的存储地址偏移量；基于所述存储地址偏移量获得存储所述第一目标汇编指令的第一存储空间的地址。7.一种基于图形处理器的深度学习应用的性能优化装置，其特征在于，所述装置包括：指令替换模块，用于在将深度学习应用中待优化算子对应的汇编指令加载至GPU的寄存器时，将所述汇编指令中的第一目标汇编指令替换为第二目标汇编指令，所述第一目标汇编指令是所述待优化算子包含的待优化汇编指令，所述第二目标汇编指令是优化后的汇编指令，且不属于所述待优化算子；指令执行模块，用于当执行所述第二目标汇编指令后，执行所述第一目标汇编指令之后的其他汇编指令。8.根据权利要求7所述的装置，其特征在于，所述指令替换模块包括：第一存储子模块，用于在第二存储空间存储所述第二目标汇编指令，其中，所述第二目标汇编指令；2CN114418827A权利要求书2/2页第二存储子模块，用于将第一跳转指令存储至用于存储所述第一目标汇编指令的第一存储空间，所述第一跳转指令用于跳转至所述第二存储空间。9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器内存储有指令，所述处理器运行所述存储器内存储的指令时实现上述权利要求1‑6任一项所述的基于图形处理器的深度学习应用的性能优化方法。10.一种计算机可读的存储介质，其特征在于，所述存储介质上存储

相关资料

一种基于GPU的深度学习算法的性能优化方法及装置.pdf

本申请提供了一种基于GPU的深度学习应用的性能优化方法及装置，该方案在GPU加载深度学习应用对应的汇编指令的过程中，将该汇编指令中的第一目标汇编指令替换为第二目标汇编指令。执行指令时，只需执行第二目标汇编指令，不再执行第一目标汇编指令，而且，执行完第二目标汇编指令后，按顺序继续执行第一目标汇编指令之后的其它汇编指令，从而实现改变GPU中高性能函数库的执行逻辑得到新的算子。由上述过程可见，该方案是将新算子与GPU中高性能函数库相结合，使得新算子也能达到较高的计算性能，该方案既能够满足GPU对新算子的支持，即

2023-07-23

487KB

一种基于GPU的图分析算法通用优化方法.pdf

本发明涉及图计算技术领域，是一种基于GPU的图分析通用优化方法及装置，解决了GPU并行图分析算法的性能瓶颈问题。本发明的方法包括：数据集预处理操作：去除图数据的冗余部分，并统一数据集格式；数据分块重排序操作：将数据集分块后，对块内顶点按照出度进行重排序，并将重排序后的图以CSR压缩格式表示；GPU共享内存缓存热顶点操作：利用重排序后的热顶点分布方式，将热顶点的属性数据缓存在GPU端的共享内存中。本方法可以增强图数据的空间局部性，实现图的热顶点共享同一缓存块并驻留在GPU端，避免了热顶点在内存不足时被频繁驱

2023-11-06

817KB

基于GPU的高性能并行优化算法研究综述报告.docx

基于GPU的高性能并行优化算法研究综述报告GPU（图形处理单元）由于其高并行性和可用性，已经成为许多应用程序的首选加速器。在GPU上执行并行算法的主要挑战之一是找到正确的算法和实现，以高效地利用GPU的并行性。本文将综述基于GPU的高性能并行优化算法研究。在GPU上实现并行算法时，需要考虑许多因素，包括内存带宽、共享内存、寄存器分配、数据排列等。GPU的内存带宽通常比CPU的内存带宽低，这使得高效的访问模式至关重要。共享内存也是GPU上常用的一种优化技术，可以减少内存访问的需求，从而提高性能。在GPU上，

2024-10-25

10KB

基于GPU的MTD性能优化.docx

基于GPU的MTD性能优化基于GPU的MTD性能优化摘要：随着科技的不断进步和应用场景的扩大，越来越多的应用程序需要处理大规模的数据，并且需要在有限的时间内完成任务。而MTD计算具有并行性强的特点，能够在较短的时间内处理大量数据。本论文以基于GPU的MTD为研究对象，探讨了在实际应用中如何优化其性能的方法。通过GPU的并行计算能力和大规模问题的特点，可以利用GPU进行并行化计算和优化算法，以提高MTD性能。我们将介绍一些常见的GPU优化技术，并且根据实验结果对这些技术进行评估和比较。通过本论文的研究，我们

2024-10-23

11KB

基于OpenCL的若干机器学习算法GPU实现及优化.docx

基于OpenCL的若干机器学习算法GPU实现及优化随着机器学习技术的不断发展，由于大量的浮点运算和计算密集型的运算需求，GPU已经成为了实现这些计算任务的重要的硬件平台之一。而OpenCL作为跨平台和开放标准的GPU编程工具，在GPU实现及优化机器学习算法方面也取得了很好的效果，成为了研究的热门方向之一。本文将主要分析基于OpenCL的机器学习算法GPU实现及优化的相关技术和应用情况。首先，我们需要了解什么是OpenCL。OpenCL是一个跨平台的支持并行程序设计和高性能计算的开放标准，它可以运行于各种不

2024-10-25

11KB