深度网络真的需要这么深吗？解读 "Do Deep Nets Really Need to be Deep?"

Knowledge_Distillation DL

一份由多伦多大学的Jimmy Ba（现为CIFAR AI主席）和微软研究院的Rich Caruana在2014年NIPS会议上发表的开创性论文，向当时深度学习领域一个普遍的认知发起了挑战：模型的深度是其取得卓越性能的关键吗？这篇名为《深度网络真的需要那么深吗？》（Do Deep Net…

深度学习优化算法演进之路：从 SGD 到 AdamW

ML DL Optimization_Algorithm SGD Adam AdamW

在训练深度神经网络时，我们核心的目标是寻找一组参数（权重和偏置），使得损失函数（Loss Function）的值最小化。这个寻找最优参数的过程，就是“优化”。梯度下降法（Gradient Descent）是这一过程的基石，但它本身存在一些固有的挑战。为了克服这些挑战，一…

Back_Propagation DL ML

在深入探讨神经网络的优化时，我们知道反向传播（Backpropagation）是核心。它像一个精密的信使系统，将损失函数（Loss Function）的梯度信息从网络的输出端逐层传递回输入端，从而指导每一个参数的更新。但这个“信使”的第一步是如何迈出的？这个“源头”梯度…

ML Logistic_Regression DL Statistic

“神经网络”这个词充满了魔力，它让我们联想到大脑中数十亿个神经元相互连接，进行复杂的思考和学习。这种联想既是它流行的原因，也常常是误解的来源。事实上，现代深度学习中的“神经网络”与生物学上的神经元关系甚微，它更多的是一个受到生物启发，但根植于…