SVM 基本型

  • 划分超平面:$\omega^Tx+b=0$
    • 点到超平面的距离:$\frac{|\omega^Tx+b|}{||\omega||}$

$$ \begin{cases} \omega^Tx_i+b\geq y_i, & y_i=+1 \newline \omega^Tx_i+b\leq y_i, & y_i=-1 \end{cases} $$

  • 支持向量(support vector):使上式成立取等的样本点
  • 间隔(margin):两个异类支持向量到超平面的距离 $\frac{2}{||\omega||}$
  • SVM 基本型(Support Vector Machine)

$$ \begin{aligned} \min_{\omega,b} & \frac{1}{2}||\omega||^2 & \newline s.t. & y_i(\omega^Tx_i+b)\geq 1, &i=1,2,\cdots,m \end{aligned}\newline $$

  • 凸优化求解:复杂度与样本维度(等于权值 $\omega$ 的维度)有关

对偶问题

  • 复杂度与样本数量(等于拉格朗日算子$\alpha$的数量)有关
  • 解的稀疏性:最终模型仅与支持向量有关
    • KKT 条件导出

对偶问题的转化

  • Step1: 拉格朗日函数:$L(\omega,b,\alpha)$
  • Step2: 对 $\omega$ 和 $b$ 求偏导并令为零
    • $\omega=\sum_{i=1}^m\alpha_iy_ix_i$
  • Step3: 回代可得

$$ \begin{aligned} \max_{\alpha} & \sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{i=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j \newline s.t. & \sum_{i=1}^m\alpha_iy_i=0 \newline & \alpha_i\geq 0 \end{aligned} $$

求解对偶问题

  • SMO (Sequential Minimal Optimization)
    • 选取一对需要更新的变量 $\alpha_i$ 和 $\alpha_j$
      • 先选违背 KKT 条件最大者,再选使目标函数增长最快
      • 实际中启发式:选取两变量所对应样本之间间隔最大
    • 固定其它参数,更新 $\alpha_i$ 和 $\alpha_j$

核函数

  • $f(x)=\omega^T\phi(x)$
  • 核函数:$\kappa(x_i,x_j)=\langle\phi(x_i),\phi(x_j)\rangle$
    • $\kappa$ 为核函数 $\iff$ 核矩阵 $K$ 半正定
  • $\kappa_1,\kappa_2$ 为核函数,则以下为核函数
    • $\gamma\kappa_1+\gamma\kappa_2$
    • $\kappa_1\otimes\kappa_2(x,z)=\kappa_1(x,z)\kappa_2(x,z)$
    • $\kappa(x,z)=g(x)\kappa_1(x,z)g(z)$
常用核函数 $\kappa(x_i,x_j)$
线性核 $x_i^Tx_j$
多项式核 $(x_i^Tx_j)^d$
高斯核 $e^{-\frac{\Vert x_i-x_j\Vert^2}{2\sigma^2}}$
拉普拉斯核 $e^{-\frac{\Vert x_i-x_j\Vert}{\sigma}}$
Sigmoid 核 $\tanh(\beta x_i^Tx_j+\theta)$
  • 支持向量展式(利用对偶问题):$f(x)=\omega^T\phi(x)+b=\sum_{i=1}^m\alpha_iy_i\kappa(x,x_i)+b$

软间隔

  • 优化目标:$\min_{\omega,b}\frac{1}{2}||\omega||^2+C\sum_{i=1}^m\xi_i$
    • 松弛变量 $\xi_i=l(y_i(\omega^Tx_i+b)-1)$
  • 原问题

$$ \begin{aligned} \min_{\omega,b} & \frac{1}{2}||\omega||^2+C\sum_{i=1}^m\xi_i & \newline s.t. & y_i(\omega^Tx_i+b)\geq 1-\xi_i \newline & \xi_i\geq 0 \end{aligned} $$

  • 对偶问题(损失函数为 hinge)

$$ \begin{aligned} \max_{\alpha} & \sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{i=1}^m\alpha_i\alpha_jy_iy_j\phi(x_i)^T\phi(x_j) \newline s.t. & \sum_{i=1}^m\alpha_iy_i=0 \newline & C\geq \alpha_i\geq 0 \end{aligned} $$

损失函数 $l(z)$ Remark
0/1 $1,z<0$ 不易求解
hinge $\max(0,1-z)$ 保持稀疏性
exp $e^{-z}$
log $\log(1+e^{-z})$ 几率回归模型,无稀疏性
  • 一般形式:$\min_f\Omega(f)+C\sum_{i=1}^ml(f(x_i),y_i)$
    • 结构风险:$\Omega(f)$
    • 经验风险:$\sum_{i=1}^ml(f(x_i),y_i)$,模型与训练数据契合程度

支持向量回归 SVR

  • $\min_{\omega,b}\frac{1}{2}||\omega||^2+C\sum_{i=1}^ml_\epsilon(f(x_i)-y_i)$
    • 落入中间 $2\epsilon$ 间隔带的样本不计算损失,

$$ \begin{cases} 0, & |z|\leq\epsilon \newline |z|-\epsilon, & otherwise \end{cases} $$

核方法

  • 表示定理:对于任意的单调递增函数 $\Omega$ 和任意非负损失函数 $l$,优化问题

    $$\min_{h\in\mathbb{H}}F(h)=\Omega(||h||_\mathbb{H})+l(h(x_1),h(x_2),\cdots,h(x_m))$$

    的解总可以写成 $h^*(x)=\sum_{i=1}^m\alpha_i\kappa(x,x_i)$

  • KLDA

  • KPCA