一、基础考试范围
先看老师明确提到题型包括:选择题、填空题、简答题、综合题。复习时不能只背概念,还要能回答“为什么”和“怎么实现”。
选择 / 填空
重点记概念、公式、结构名称、典型作用。
重点记概念、公式、结构名称、典型作用。
简答 / 综合
重点练解释过程、对比差异、分析训练问题。
重点练解释过程、对比差异、分析训练问题。
二、训练与优化
高频损失函数
- 作用:衡量模型预测值与真实值之间的差距。
- 分类任务常用交叉熵损失,回归任务常用均方误差 MSE。
- 损失越小,说明预测越接近真实标签。
梯度下降法
参数更新公式
参数 = 参数 - 学习率 × 梯度
- 沿着损失函数下降最快的方向更新参数。
- 学习率太大可能震荡或发散,学习率太小会导致收敛很慢。
Batch Size 与 Learning Rate
| 概念 | 含义 | 影响 |
|---|---|---|
| Batch Size | 每次参数更新使用的样本数量 | 影响训练速度、显存占用、梯度稳定性和泛化效果 |
| Learning Rate | 每次更新参数的步长 | 太大易发散,太小收敛慢 |
梯度消失与梯度爆炸
梯度消失
反向传播时梯度越来越小,前面层几乎学不到。常见于深层网络和 RNN。
梯度爆炸
反向传播时梯度过大,参数更新剧烈,训练不稳定,损失可能变成 NaN。
解决思路
合适初始化、ReLU、BatchNorm、残差连接、梯度裁剪、合理学习率。
Xavier 初始化
Xavier 初始化的核心思想是让前向传播和反向传播时的方差尽量保持稳定,从而缓解梯度消失或爆炸。
三、Softmax 与分类
必会公式为什么要做 Softmax
- 把模型原始输出转换为概率分布。
- 每个类别概率在 0 到 1 之间,所有类别概率之和为 1。
- 适用于多分类任务,通常和交叉熵损失配合使用。
Softmax 公式
softmax(x_i) = exp(x_i) / sum(exp(x_j))
数值稳定实现
exp(x_i - max(x)) / sum(exp(x_j - max(x)))
四、多层感知机 MLP
会画图多层感知器为什么能解决异或问题
- 单层感知机只能解决线性可分问题。
- 异或问题是非线性可分问题。
- 加入隐藏层和非线性激活函数后,网络可以拟合非线性决策边界。
隐藏层的作用
隐藏层用于提取中间特征,把原始输入映射到更适合分类或回归的特征空间。
激活函数表达形式
| 激活函数 | 形式 | 特点 |
|---|---|---|
| Sigmoid | 1 / (1 + exp(-x)) |
输出在 0 到 1,容易梯度消失 |
| Tanh | (exp(x)-exp(-x))/(exp(x)+exp(-x)) |
输出在 -1 到 1 |
| ReLU | max(0, x) |
计算简单,深度网络中常用 |
过拟合与 k 折交叉验证
过拟合
训练集效果很好,测试集效果变差。解决方法包括正则化、Dropout、数据增强、早停、减少模型复杂度。
k 折交叉验证
将数据分成 k
份,轮流取一份做验证集,其余做训练集,用于更稳定地评估模型。
五、CNN 卷积神经网络基础
重点解释图片是什么
- 灰度图可以看成二维矩阵。
- 彩色图通常是三维张量:高 × 宽 × 通道数。
- RGB 图片有 3 个输入通道。
为什么有多个输入、输出通道
- 输入通道来自数据本身,例如 RGB 的红、绿、蓝三个通道。
- 输出通道由卷积核数量决定,一个卷积核通常产生一个输出特征图。
- 多个输出通道可以学习边缘、纹理、形状等不同特征。
Padding 与 Stride
| 概念 | 作用 | 什么时候用 |
|---|---|---|
| Padding | 在图像边缘补 0 或其他值 | 保留边缘信息、控制输出尺寸 |
| Stride | 卷积核每次移动的步长 | 降低输出尺寸、减少计算量 |
为什么不用全连接层处理整张图片
- 图片维度大,全连接层参数数量过多。
- 全连接层不善于保留空间结构。
- 卷积层具有局部连接和权值共享,参数更少,也更适合图像特征提取。
CNN 的困惑度有什么含义
困惑度通常用于语言模型,不是 CNN
图像分类的典型指标。若题目提到困惑度,一般要说明它衡量模型对序列预测的不确定性,数值越低通常表示模型预测越好。
六、经典 CNN 网络
结构题LeNet
LeNet 是早期用于手写数字识别的卷积神经网络,典型结构为卷积层、池化层、卷积层、池化层、全连接层。
AlexNet 的 Max Pooling
最大池化用于降采样,保留局部区域中最显著的特征,减少尺寸和计算量,并增强一定的局部平移不变性。
批量归一化 BatchNorm
第一步:标准化
减均值、除标准差,使输入分布更稳定。
第二步:缩放和平移
引入可学习参数
γ 和
β,恢复网络表达能力。
ResNet 为什么能解决深层网络问题
- ResNet 使用残差连接,让信息可以跨层直接传递。
-
网络学习的是残差
F(x) = H(x) - x,最终输出为F(x) + x。 - 残差连接可以缓解梯度消失和网络退化问题,使更深的网络更容易训练。
七、序列模型与 Transformer
后半重点LSTM
- LSTM 用于处理序列数据。
- 通过门控机制缓解普通 RNN 的梯度消失问题。
- 关键门包括遗忘门、输入门、输出门。
Transformer 框架
- 核心机制是自注意力 Self-Attention。
- 主要组成包括输入嵌入、位置编码、多头注意力、前馈网络、残差连接、LayerNorm。
- 优点是并行计算能力强,能够捕捉长距离依赖。
八、考前优先级
最后背如果时间紧,优先复习下面这些点。它们最容易出现在简答题和综合题里。
损失函数
梯度下降
Softmax
MLP 与异或
梯度消失/爆炸
Xavier 初始化
CNN 通道
Padding / Stride
LeNet / AlexNet
BatchNorm
ResNet
LSTM
Transformer