随机梯度下降的新对数步长

放大字体  缩小字体 2024-04-24 16:36  浏览次数:

New logarithmic step size for stochastic gradient descent

步长,通常被称为学习率,在优化随机梯度下降(SGD)算法的效率方面起着关键作用。近年来,为了提高SGD性能,出现了多种步长策略。然而,与这些步长相关的一个重大挑战与它们的概率分布有关,表示为ηt/ΣTt=1ηt。

观察这种分布是为了避免给最终迭代分配极小的值。例如,广泛使用的余弦步长虽然在实践中是有效的,但它通过为最后的迭代分配非常低的概率分布值来遇到这个问题。

为了应对这一挑战,由M. Soheil Shamaee领导的一个研究小组在《计算机科学前沿》上发表了他们的研究成果。

该团队为SGD方法引入了一种新的对数步长。这个新的步长已被证明在最后的迭代中特别有效,与传统的余弦步长相比,它具有明显更高的选择概率。

因此,新的步长方法在这些关键的总结迭代中超过了余弦步长方法的性能,受益于它们被选为选定解的可能性增加。得到的数值结果证明了新提出的步长是有效的,特别是在FashionMinst、CIFAR10和CIFAR100数据集上。

此外,新的对数步长在测试精度方面显示出显着的改进,当与卷积神经网络(CNN)模型一起使用时,CIFAR100数据集的测试精度提高了0.9%。

更多信息:随机梯度下降的新对数步长,计算机科学前沿(2024)。DOI: 10.1007 / s11704 - 023 - 3245 - z。引用本文:随机梯度下降的新对数步长(2024,4月22日)检索自2024年4月23日的https://techxplore.com/news/2024-04-logarithmic-size-stochastic-gradient-descent.html。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。

热门搜索排行
声明:本站信息均由用户注册后自行发布,本站不承担任何法律责任。如有侵权请告知,立即做删除处理。
违法不良信息举报邮箱
晋ICP备17002844号
中国互联网举报中心