常规梯度下降法

整体梯度下降 LGD
随机梯度下降 SGD
批量梯度下降 BGD

动量梯度下降法

Adam算法----应用最为广泛

Adam算法是集成了 RMSProp和动量梯度下降法的优点，特别适用于大多非凸优化问题（大数据集和高维空间），特别是 Transformer等现代深度学习大模型 主要优点是：

使用了动量法的历史梯度加速了当前梯度的下降速度，保证初期迭代很快
又使用了 RMSProp的惩罚机制，极大避免了历史梯度对当前梯度下降速度的较大影响，控制了自适应学习率的增加速度。

例如，前期 Adam算法梯度下降很快，因为历史梯度值小，迭代速度快，每一步的学习率都很大（大步向山下迈）；后期迭代时，由于历史梯度影响，每一步的学习率都比初期小得多（小步走向最低处），保证不会走过最低处，避免了过拟合问题。

过拟合问题：

这里体现为：

走到最低处时走过了，然后反复在最低处附近左右横跳，一直无法到达最低处。对应于后期学习率较大，模型无法收敛
不仅走过了最低处，还往高处不断攀登，离最低点越来越远，损失值越来越大。对应于学习率过大，每一步的步长都特别大，落点很难控制。

Author

JuyaoHuang

Publish Date

10 - 21 - 2025

License CC BY-NC-SA 4.0

JuyaoHuang

平凡的世界，平凡的人生

Categories

项目实践

21

Web全栈开发

9

人工智能

26

资讯与生活

3

知识库

20

Python

17

Tags

Example

Video

Astro

pagefind

机器学习

ML

matplotlib

numpy

pandas

seaborn

sklearn

python

DL

AI

cloudflare

访谈

大学

CV

Pytorch

conda

gpt-sovits

csnetwork

微机原理

通信原理

技术改进

View More