Perceptron

1957

  • 模型:$\hat y=\text{sgn}(\omega^\top x)$
  • 参数学习:错误驱动在线学习算法
    • $\omega\leftarrow 0$
    • 对于 $y\omega^\top x<0,\omega\leftarrow \omega+yx$
    • $L(\omega;x,y)=\max(0,-y\omega^\top x)$
  • 感知机收敛性:$\mathcal{D}={(\mathbf{x}^{(n)},y^{(n)})}_{n=1}^N,R=\max_n|x^{(n)}|$,若 $\mathcal{D}$ 可分,则两类感知机权重更新不超过 $\frac{R^2}{\gamma^2}$

神经元

  • 神经元
    • 净输入:$z=\omega^\top x+b$
    • 活性值:$a=f(z)$
    • 激活函数:$f$

激活函数

  • Sigmoid 型函数:两端饱和函数
    • Logistic: $\sigma(x)=\frac{1}{1+\exp(-x)}$
    • Tanh: $\tanh(x)=2\sigma(2x)-1=\frac{\exp(x)-\exp(-x)}{\exp(x)+\exp(-x)}$
    • 计算开销较大
  • hard-logistic$(x)=\max(\min(0.25x+0.5,1),0)$
  • hard-Tanh$(x)=\max(\min(x,1),-1)$
  • ReLU$(x)=\max(0,x)$
    • 计算高效
    • 生物学合理性:单侧抑制、宽兴奋边界
    • 非零中心化:偏置偏移
    • 死亡 ReLU 问题
  • LeakyReLU$(x)=\max(x,\gamma x)$
  • 带参数 ReLU,对于第 $i$ 个神经元:PReLU$_i(x)=\max(0,x)+\gamma_i\min(0,x)$
  • Exponential Linear Unit: ELU$(x)=\max(0,x)+\min(0,\gamma(\exp(x)-1))$
    • 近似零中心化
  • Softplus$(x)=\log(1+\exp(x))$
  • Swish$(x)=x\sigma(\beta x)$
  • GELU$(x)=xP(X\leq x),P(X\leq x)$ 为高斯累积分布函数
  • Maxout$(x)=\max_{k\in[1,K]}(z_k),z_k=\omega_k^\top x+b_k$
    • 输入为向量