随机梯度下降的新对数步长_电子与半导体

New logarithmic step size for stochastic gradient descent

步长，通常被称为学习率，在优化随机梯度下降(SGD)算法的效率方面起着关键作用。近年来，为了提高SGD性能，出现了多种步长策略。然而，与这些步长相关的一个重大挑战与它们的概率分布有关，表示为ηt/ΣTt=1ηt。

观察这种分布是为了避免给最终迭代分配极小的值。例如，广泛使用的余弦步长虽然在实践中是有效的，但它通过为最后的迭代分配非常低的概率分布值来遇到这个问题。

为了应对这一挑战，由M. Soheil Shamaee领导的一个研究小组在《计算机科学前沿》上发表了他们的研究成果。

该团队为SGD方法引入了一种新的对数步长。这个新的步长已被证明在最后的迭代中特别有效，与传统的余弦步长相比，它具有明显更高的选择概率。

因此，新的步长方法在这些关键的总结迭代中超过了余弦步长方法的性能，受益于它们被选为选定解的可能性增加。得到的数值结果证明了新提出的步长是有效的，特别是在FashionMinst、CIFAR10和CIFAR100数据集上。

此外，新的对数步长在测试精度方面显示出显着的改进，当与卷积神经网络(CNN)模型一起使用时，CIFAR100数据集的测试精度提高了0.9%。

更多信息:随机梯度下降的新对数步长，计算机科学前沿(2024)。DOI: 10.1007 / s11704 - 023 - 3245 - z。引用本文:随机梯度下降的新对数步长(2024,4月22日)检索自2024年4月23日的https://techxplore.com/news/2024-04-logarithmic-size-stochastic-gradient-descent.html。除为私人学习或研究目的而进行的任何公平交易外，未经书面许可，不得转载任何部分。内容仅供参考之用。