栏目分类:
子分类:
返回
终身学习网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
终身学习网 > IT > 软件开发 > 后端开发 > Python

动手学深度学习V2.0(Pytorch)——35. 分布式训练

Python 更新时间:发布时间: 百科书网 趣学号

文章目录

P1 课件讲解 P2 Q&A

2.1 分布式的目的也是和data parallel一样提升计算速度吗?为什么不能只用data parallel就解决这个问题呢,是因为分布式多了一些通信技术吗? 2.2 每个参数服务器求完梯度之后,还要汇总到一个主服务器,再分发给各个参数服务器,然后再传给计算节点吗? 2.3 为什么batchsize越大,训练有效性反而越低,训练有效性曲线是降低的 2.4 在分布式集群进行训练时,为什么计算和通讯可以同时进行?单机上不是要等梯度算完,传到参数服务器上,等所有梯度集合更新后,才能拿到下一个新的模型参数吗? 2.5 分布式使用多个GPU相当于增大batch_size,一般是不是batch_size超过2048是不是就不好了呀?那为什么还要用分布式?是为了训练大模型?batch_size可以加到几千几万?

P1 课件讲解

https://www.bil

转载请注明:文章转载自 www.051e.com
本文地址:http://www.051e.com/it/740490.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 ©2023-2025 051e.com

ICP备案号:京ICP备12030808号