第六章
Input -> FL -> FL -> FL -> Softmax ->
输出单元
- 高斯输出分布线性单元
- Bernoulli输出分布sigmoid单元
- Multinoulli输出分布softmax单元
隐藏单元
- 线性整流单元
- logistic & tanh
- maxout
- RBF
第七章:正则化
- 岭回归
- L1正则化
- 约束的范数惩罚
- 提前终止
- 参数共享
- Dropout
- 滑动平均
第八章:优化
- 批量与小批量算法
- 一阶
- 动量
- Nesterov 动量
- AdaGrad
- RMSProp
- Adam
- 二阶
- 牛顿法
- 共轭梯度
- BFGS
- 批标准化
第九章:CNN
- CNN的三个关键优势:稀疏交互、参数共享、平移等变
- 池化
- 无限强的先验
- 有效卷积、同卷积、全卷积
- 非共享卷积
- Inception 系列
- LeNet-5
input -> Conv -> pool -> Conv -> pool -> FC -> FC -> Softmax ->
第十章:RNN
- Deep RNN
技术:Target Delay
-
Bidirectional RNN
-
Pyramid RNN
-
Stack RNN
-
门控RNN
- LSTM $$c^t = z^t * c^{t-1} + z^{i} * z$$ $$h^t = z^0 * tanh(c^t)$$
- GRU $$h^t = z * h^t + (1-z)*h’$$
-
一片论文用遗传算法得到的好结构
语言模型
- n gram Matrix Factorization: $R = V^T*W$
- LIST的语言预测 word2vec -> LSTM(300*2) -> FC -> Softmax word2vec和FC可以参数共享
第十一章:实践方法
设计流程
- 确定目标
- 尽快建立一个端到端的工作流程,包括估计合适的性能度量
- 确定性能瓶颈
- 增量式改动
超参数选择
- 手动选择
- 自动选择
隐层单元数量、学习率、卷积核宽度、隐式零填充、权重衰减系数、Dropout比率
Spatial Transformer Layer
变换
缩放 [2, 0; 0, 2]
旋转 [cos, -sin; sin, cos]
Spatial Transformer Layer:
$[x’\ y’] = [a\ b; c\ d][x\ y] + [e\ f]$
模型
INPUT - ST - CNN - ST - CNN - ST - CNN - OUTPUT 在TensorFlow图像处理节中,我们通过人工预处理。此处使用了NN代替了人工的处理
HighWay Network & Grid RNN
将RNN竖起来当NN用,增加层数
Highway Network
可看成由GRU改来。自动学习是否要使用某一层。
- $h’ = \sigma(Wa^{t-1})$ forget gate
- $z = \sigma(W’a^{t-1})$ z:操控a update比率
- $a^t = z*a^{t-1} + (1-z)*h'$
Residual Network
可train 150层
- $a^{t-1}$ -> layer -> layer -> h'
- $a^{t} = h’ + a^{t-1}$
Grid LSTM
两个维度,同时扩展深度和时间
3D Grid LSTM
Recursive Network
Recurrent Network 是其特例
利用先验知识,比如语句结构分析,然后构建
Recursive Neural Tensor Network
Matrix-Vector Recursive Network
Tree LSTM
Conditional Generation
Seq2Seq
----------------X Y Z EOS
| | | |
f - f - f - f - f - f - f - f
| | | | | | | |
A B C D SOS X Y Z
Generation
Naive RNN: for sequence, image, etc.
3D-LSTM: Better for image
Conditional Generation
Condition as the first input
Condition as all the input
(Communication) Two layer RNN for input
常见神经网络
-
RBF 网络(Radial Basis Function)
- 径向基函数
- 高斯径向基函数:$e^{-\frac{(x-c)^2}{r^2}}$
- 三层神经网络
- 隐层激活函数为径向基函数
- 径向基函数
-
竞争性网络
- 稳定性/可塑性二难问题
-
ART 网络(Adaptive Resonance Theory)
- 内星:可以被训练来识别矢量
- 外星:可以被训练来产生矢量
- ART I 型网络
-
SOM 网络(Self-Organizing Map)
-
级联相关网络
-
Elman 网络
-
Boltzmann 机
-
深度学习
-
网络模型
- M-P 神经元模型: $y=f(\sum_{i=1}^m\omega_i-\theta)$
- Perceptron: 两层神经网络
- 多层前馈网络:全连接且无跨层连接
-
误差逆传播算法(Back Propagation)
- 前向计算
- Layer1: $b_h=f(\beta_h-\gamma_h),\beta_h=\sum_{i=1}^dv_{ih}x_i$
- Layer2: $\hat y_j=f(\alpha_j-\theta_j),\alpha_h=\sum_{i=1}^qw_{ih}b_i$
- Loss: $E_k=\frac{1}{2}\sum_{j=1}^l(\hat y_j^k-y_j^k)^2$
- 参数数⽬
- 权重 $v_{ih},w_{hj}$
- 阈值 $\theta_j,\gamma_h(i=1\cdots d,h=1\cdots q,j=1\cdots l)$
- 共需要 $(d+l+1)q+1$ 个参数
- 标准 BP 算法
- 每次针对单个训练样例更新权值与阈值
- 参数更新频繁,不同样例可能抵消,需要多次迭代
- 累计 BP 算法
- 其优化的⽬标是最⼩化 $E=\frac{1}{m}\sum_{k=1}^mE_k$
- 读取整个训练集一遍才对参数进行更新
- 前向计算
-
缓解过拟合
- 早停
- 正则化
-
跳出局部最小的策略
- 多组不同的初始参数优化神经网络, 选取误差最小的解作为最终参数
- 模拟退火技术
- 随机梯度下降
- 遗传算法