Deep Learning Review

深度学习考试重点提纲

这份提纲把课堂提到的重点整理成“概念、原因、实现、常见问法”四条线。复习时优先做到：会解释原理、会写关键公式、会画基本结构图、会判断常见训练问题。

4类题型：选择、填空、简答、综合。

8个核心模块：优化、Softmax、MLP、CNN、经典网络、序列模型等。

3类高频解释：为什么、怎么实现、怎么解决。

1条复习主线：从训练问题到网络结构。

一、基础考试范围

先看

老师明确提到题型包括：选择题、填空题、简答题、综合题。复习时不能只背概念，还要能回答“为什么”和“怎么实现”。

选择 / 填空
重点记概念、公式、结构名称、典型作用。

简答 / 综合
重点练解释过程、对比差异、分析训练问题。

二、训练与优化

高频

损失函数

作用：衡量模型预测值与真实值之间的差距。
分类任务常用交叉熵损失，回归任务常用均方误差 MSE。
损失越小，说明预测越接近真实标签。

梯度下降法

参数更新公式 参数 = 参数 - 学习率 × 梯度

沿着损失函数下降最快的方向更新参数。
学习率太大可能震荡或发散，学习率太小会导致收敛很慢。

Batch Size 与 Learning Rate

概念	含义	影响
Batch Size	每次参数更新使用的样本数量	影响训练速度、显存占用、梯度稳定性和泛化效果
Learning Rate	每次更新参数的步长	太大易发散，太小收敛慢

梯度消失与梯度爆炸

梯度消失 反向传播时梯度越来越小，前面层几乎学不到。常见于深层网络和 RNN。

梯度爆炸 反向传播时梯度过大，参数更新剧烈，训练不稳定，损失可能变成 NaN。

解决思路 合适初始化、ReLU、BatchNorm、残差连接、梯度裁剪、合理学习率。

Xavier 初始化

Xavier 初始化的核心思想是让前向传播和反向传播时的方差尽量保持稳定，从而缓解梯度消失或爆炸。

三、Softmax 与分类

必会公式

为什么要做 Softmax

把模型原始输出转换为概率分布。
每个类别概率在 0 到 1 之间，所有类别概率之和为 1。
适用于多分类任务，通常和交叉熵损失配合使用。

Softmax 公式 softmax(x_i) = exp(x_i) / sum(exp(x_j))

数值稳定实现 exp(x_i - max(x)) / sum(exp(x_j - max(x)))

四、多层感知机 MLP

会画图

多层感知器为什么能解决异或问题

单层感知机只能解决线性可分问题。
异或问题是非线性可分问题。
加入隐藏层和非线性激活函数后，网络可以拟合非线性决策边界。

隐藏层的作用

隐藏层用于提取中间特征，把原始输入映射到更适合分类或回归的特征空间。

激活函数表达形式

激活函数	形式	特点
Sigmoid	`1 / (1 + exp(-x))`	输出在 0 到 1，容易梯度消失
Tanh	`(exp(x)-exp(-x))/(exp(x)+exp(-x))`	输出在 -1 到 1
ReLU	`max(0, x)`	计算简单，深度网络中常用

过拟合与 k 折交叉验证

过拟合 训练集效果很好，测试集效果变差。解决方法包括正则化、Dropout、数据增强、早停、减少模型复杂度。

k 折交叉验证 将数据分成 k 份，轮流取一份做验证集，其余做训练集，用于更稳定地评估模型。

五、CNN 卷积神经网络基础

重点解释

图片是什么

灰度图可以看成二维矩阵。
彩色图通常是三维张量：高 × 宽 × 通道数。
RGB 图片有 3 个输入通道。

为什么有多个输入、输出通道

输入通道来自数据本身，例如 RGB 的红、绿、蓝三个通道。
输出通道由卷积核数量决定，一个卷积核通常产生一个输出特征图。
多个输出通道可以学习边缘、纹理、形状等不同特征。

Padding 与 Stride

概念	作用	什么时候用
Padding	在图像边缘补 0 或其他值	保留边缘信息、控制输出尺寸
Stride	卷积核每次移动的步长	降低输出尺寸、减少计算量

为什么不用全连接层处理整张图片

图片维度大，全连接层参数数量过多。
全连接层不善于保留空间结构。
卷积层具有局部连接和权值共享，参数更少，也更适合图像特征提取。

CNN 的困惑度有什么含义 困惑度通常用于语言模型，不是 CNN 图像分类的典型指标。若题目提到困惑度，一般要说明它衡量模型对序列预测的不确定性，数值越低通常表示模型预测越好。

六、经典 CNN 网络

结构题

LeNet

LeNet 是早期用于手写数字识别的卷积神经网络，典型结构为卷积层、池化层、卷积层、池化层、全连接层。

AlexNet 的 Max Pooling

最大池化用于降采样，保留局部区域中最显著的特征，减少尺寸和计算量，并增强一定的局部平移不变性。

批量归一化 BatchNorm

第一步：标准化 减均值、除标准差，使输入分布更稳定。

第二步：缩放和平移 引入可学习参数 γ 和 β，恢复网络表达能力。

ResNet 为什么能解决深层网络问题

ResNet 使用残差连接，让信息可以跨层直接传递。
网络学习的是残差 F(x) = H(x) - x，最终输出为 F(x) + x。
残差连接可以缓解梯度消失和网络退化问题，使更深的网络更容易训练。

七、序列模型与 Transformer

后半重点

LSTM

LSTM 用于处理序列数据。
通过门控机制缓解普通 RNN 的梯度消失问题。
关键门包括遗忘门、输入门、输出门。

Transformer 框架

核心机制是自注意力 Self-Attention。
主要组成包括输入嵌入、位置编码、多头注意力、前馈网络、残差连接、LayerNorm。
优点是并行计算能力强，能够捕捉长距离依赖。

八、考前优先级

最后背

如果时间紧，优先复习下面这些点。它们最容易出现在简答题和综合题里。

损失函数梯度下降 Softmax MLP 与异或梯度消失/爆炸 Xavier 初始化 CNN 通道 Padding / Stride LeNet / AlexNet BatchNorm ResNet LSTM Transformer