我们应该为Adam优化器做学习率衰减吗？ - 问答 - 理工酷

我们应该为Adam优化器做学习率衰减吗？

0 2080

0

我正在使用Adam优化器训练一个用于图像定位的网络，有人建议我使用指数衰减。我不想尝试，因为Adam优化器本身会降低学习速度。我应该这样做吗？有任何理论依据吗？

收藏

2021-02-03 14:57 更新

karry • 4554

共 1 个回答

高赞时间

0

这个要看情况。ADAM会利用单个学习率来更新参数。这意味着网络中的每个参数都具有特定的关联的学习率。

但是，参数的单个学习率是使用lambda（初始学习率）作为上限来计算的。这意味着每个学习率可以从0（不更新）到lambda（最大更新）之间变化。

学习率在执行训练步骤中会自动调整，这是事实，但是如果你要确保每个更新步骤都不会超过lambda，则可以使用指数衰减或其他方法降低lambda。当与先前关联的lambda参数的损失停止减少时，它就可以帮助减少最新训练步骤的损失。

Via:https://stackoverflow.com/questions/39517431/should-we-do-learning-rate-decay-for-adam-optimizer

收藏

2021-02-03 15:44 更新

anna • 5052

·圈子

位酷友已加入

圈子：计算机

标签：

计算机算法人工智能

邀请回答

邀请

开心的鸡蛋 • 5

邀请

小胡子的黄豆 • 5

邀请

彷徨的鹅 • 5

邀请

推荐问题

有没有校园分享之类的APP毕业设计啊什么是随机森林？第一财经《所谓的回血老师》智库百科一般在什么情况下对电力系统进行潮流分析？车联网(IoV)和车载自组网(VANET)有什么区别？

推荐资源

行业中报业绩超预期，钢铁板块强势上涨

无刷云台控制器

【施耐德 Schneider 产品参数表】LR97D38M7 : TeSys电子过流继电器, 220 V AC, 设定范围: 20...38A PDF

转子头总成

铝型材20x20长度100mm

加入组织

微信扫码，每周推送最新资料