特征选择方法
- 冗余特征
- 去除:减轻负担
- 保留:对应中间概念
- 特征选择方法
- 子集搜索
- 前向
- 后向
- 子集评价
- 子集搜索
过滤式选择
先过滤,再训练
Relief
- near-hit: 同类样本中最近
- near-miss: 异类样本中最近
- 相关统计量(属性$j$): $\delta^j=\sum_i-\text{diff}(x_i^j,x_{i,nh}^j)^2+\text{diff}(x_i^j,x_{i,nm}^j)^2$
- 若 $x_i$ 与其猜中邻近在属性上的距离小于猜错邻近,增大相关统计量
Relief-F
- $\delta^j=\sum_i-\text{diff}(x_i^j,x_{i,nh}^j)^2+\sum_{l\not=k}(p_l*\text{diff}(x_i^j,x_{i,l,nm}^j)^2)$
- $p_l$ 为所占比例
包裹式选择
先训练,再选择
- LVW(Las Vegas Wrapper)
- 随机抽取特征 $A$ 后评估
嵌入式选择
- L1 正则化(LASSO,Least Absolute Shrinkage and Selection Operator)
- PGD 近端梯度下降
- 满足 L-Lipschitz 条件
- 二阶泰勒在 $x_k$ 展开:$\hat f(x)\simeq \frac{L}{2}||x-(x_k-\frac{1}{L}\nabla f(x_k)||^2_2+C$
- 最小值取在 $x_{k+1}=x_k-\frac{1}{L}\nabla f(x_k)$
- PGD 近端梯度下降
- L2 正则化(岭回归)