文档详情

基于GPU深度网络的加速算法研究.pdf

发布:2025-03-26约9.98万字共66页下载文档
文本预览下载声明

摘要

近年来,在图像识别、语音识别等领域,深度学习的表现越来越突出,成为

业界内很多人的研究对象。而在一个的神经网络中,包含了大量的参数,在进行

网络训练时,参数量越大,单次训练需要的时间越来越长。其次,现有的深度网

络框架并不能满足任何环境下的网络运行。而近年来,图形处理器GPU(Graphic

ProcessorUnits)硬件设备得到了快速升级,通用计算技术因此而有了飞跃性的成长,

到如今已慢慢开始走向成熟。现在,很多功能强大的GPU的算力是CPU(Central

ProcessingUnit)的几十倍。因此,使用GPU的计算资源加速深度网络能够很好地

解决现如今深度网络训练时长的问题。

基于以上分析,本文对如今存在的并行加速算法研究后,基于CUDA(Compute

UnifiedDeviceArchitecture)的计算框架,对深度学习算法进行并行加速研究。本论

文的主要工作总结如下:

(1)GPU加速算法的方法研究。设计深度网络时,在计算的层面,研究了卷

积计算展开矩阵乘法的方法,减少网络计算乘法量与加法量;在网络的层面,研

究了网络部分参数化的方法,将网络中的权值偏置矩阵进行稀疏化矩阵操作;在

网络层面的并行上,研究了通道并行化的方法,对网络在线程块与线程这两个级

别上实现并行加速计算。

(2)VGG-16深度网络的构造与加速对比研究。在CUDA上,基于加速算法

的并行方法,构造出VGG-16深度神经网络,并基于数据集中的图片对网络VGG-16

网络进行训练,可视化网络运行时间,计算GPU的加速比。同时,在CPU上对

VGG-16网络的单核计算时间与7核计算时间进行了与GPU加速实验的对比研究。

最后与VGG-16网络在一些框架上运行的时间作比较,说明本文提出的方法在参

数量大的深度网络上应用的有效性。

(3)Alexnet深度网络的构造与加速对比研究。在GPU平台上,在单GPU上

实现Alexnet网络的构造,并基于本文中的方法,对Alexnet网络进行了网络优化,

对网络各层的优化时间进行了可视化,最后与CPU计算和原网络双GPU计算进

行了计算时间的对比,说明本文方法在参数量小的深度网络上应用的上有效性。

关键词:深度学习,GPU通用计算,CUDA,卷积展开,通道并行

ABSTRACT

Inrecentyears,inthefieldsofimagerecognitionandspeechrecognition,the

performanceofdeeplearninghasbecomemoreandmoreprominent,andithasbecome

theresearchobjectofmanypeopleintheindustry.Inaneuralnetwork,alargenumber

ofparametersareincluded,duringnetworktraining,thelargertheamountofparameters,

thelongerandlongerthetimerequiredforasingletraining.Secondly,theexistingdeep

networkframeworkcannotsatisfythenetworkoperationinanyenvironment.Inrecent

years,GPU(GraphicProcessorUnits)hardwareequipmenthasbeenrapidlyupgraded,

andgeneral-purposecomputingtechnologyhasthereforegrownbyleapsandbounds,

andnowithasslowlybeguntomature.Nowadays,thecomputingpowerofmany

powerfulGPUsisdozens

显示全部
相似文档