预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于GPU的域乘法并行算法的改进研究 摘要: 随着计算机技术的不断发展,GPU(图形处理器)作为一种强大的并行计算器,被广泛应用于科学计算、数据处理等领域。其中,域乘法算法是一种常用的计算方法,已经被广泛应用于密码学、信号处理等领域。因此,本文针对基于GPU的域乘法并行算法进行了改进研究。本文采用CUDA编程模型,改进了基于多项式的域乘法算法,采用多项式展开、多项式合并等技术,提高了算法的计算效率。实验结果表明,改进后的算法在性能上得到了明显的提升,可以更加高效地进行域乘法计算。 关键词:GPU;域乘法;CUDA;多项式展开;多项式合并 一、引言 GPU是一种专门为图形处理而设计的处理器,对于科学计算、数据处理等领域具有更强的计算能力。在这些领域中,域乘法是一种基本的计算方法,例如在密码学中,RSA算法、椭圆曲线算法等都需要涉及到大量的域乘法计算。因此,利用GPU进行并行化计算非常必要。在本文中,我们对基于GPU的域乘法算法进行改进,提高算法的计算性能。 二、相关研究 目前,已经有许多学者对基于GPU的域乘法算法进行了研究,并且提出了一些有效的优化方法。例如,在[1]中,提出了一种基于CUDA的域乘法并行算法,采用多项式展开和多项式合并技术,实现了加速计算。在[2]中,对于大型域乘法计算,采用了多级分割和多路并行的策略,实现了更高的并行度。 三、算法改进 本文基于CUDA编程模型,对基于多项式的域乘法算法进行改进。具体来说,我们采用了多项式展开和多项式合并技术,提高了算法的计算性能。多项式展开的过程中,我们将多项式拆分成多个小块,然后使用线程并行计算。多项式合并的过程中,我们将多个线程计算的结果汇总到一个数组中,减少了线程间的通信开销。 四、实验结果与分析 我们在NVIDIA的TeslaV100GPU上,实现了改进后的域乘法算法,并进行了性能测试。实验结果如表1所示: 表1:改进后算法与基准算法的性能比较 算法|运行时间(ms)|计算速度(Mb/s) -|-|- 改进后算法|2.5|12.3 基准算法|3.4|9.5 从表中可以看出,改进后的算法在计算速度上明显优于基准算法,计算速度提高了29.5%。这是因为我们采用了多项式展开、多项式合并等技术,增加了并行度,减小了线程间的通信开销,从而提高了算法的计算效率。 五、结论 本文针对基于GPU的域乘法算法进行了改进研究,提高了算法的计算效率。实验结果表明,改进后的算法在性能上得到了明显的提升,可以更加高效地进行域乘法计算。未来,我们可以尝试进一步优化算法,提高算法的计算速度,拓宽算法的应用范围。 参考文献 [1]HuY,WengM,HuangL,etal.CUDA-basedImplementationofFiniteFieldMultiplication[J].ProcediaEngineering,2012,31:852-856. [2]HaidarA,DongarraJ.High-PerformancePolymulGPUMultiplierfortheNumberFieldSieveCryptanalysis[J].ProcediaComputerScience,2013,18:2176-2185.