数据并行

本节将介绍如何通过EPL来对ResNet-50模型做数据并行分布式训练。

通过添加以下几行代码,EPL即可将本地训练程序转换成分布式训练程序。

+ import epl
+ epl.init()
+ epl.set_default_strategy(epl.replicate(device_count=1))

ResNet50()
training_session()

用户可以通过以下脚本来启动一个2卡的数据并行训练任务。

epl-launch --num_workers 2 --gpu_per_worker 1 scripts/train_dp.sh

scripts/train_dp.sh 是一个本地的训练脚本。

完整的训练代码可以参考EPL ResNet Example