IBM运用分散式深度学习加快模型训练过程,50分钟图像辨识度可达33.8%
IBM Research于本周二发布,IBM利用分散式深度学习软件来提升深度学习效能,并创下记录。根据IBM官方部落格,IBM在64个Power系统中,共256颗GPU,透过分散式深度学习软件,能在50分钟内训练深度学习模型ResNet-50,且能让深度学习模型的图像辨识准确率达33.8%。
以往要部署大规模的深度学习,往往需要花费数天甚至数周来训练深度学习模型,而IBM Research研究团队的研究目的着重于,降低以大量资料来训练大量模型的时间,以及提高机器学习模型的准确度。
IBM研究团队研发分散式深度学习软件,不仅提升了深度学习模型图像辨识的准确度,更缩短训练神经网路模型ResNet-101的时间。IBM宣称仅需要7小时,而微软训练相同的ResNet-101模型则花费了10天。
根据IBM,现今流行的深度学习框架通常都在一台服务器上来扩展多颗GPU,以提升效能表现。不过,IBM Research研究团队的分散式深度学习软件,能优化且自动化在数十台服务器上,共上百颗GPU的平行运算,以提升处理速度,并缩短训练深度学习模型的时间。
而IBM采用ImageNet-1K模型,来训练深度学习模型ResNet-50仅费时50分钟的记录,超越了脸书用Caffe2模型,花费1小时来训练类似深度学习模型的时间。另外,IBM在深度学习模型的图像辨识准确度也超越微软的29.8%。
