距离
- 正定性
- 对称性
- 三角不等式
有序距离
- 闵可夫斯基距离:$l=(\sum_{i=1}^n|x_i-y_i|^p)^{\frac{1}{p}}$
- 切比雪夫距离:$l_\infty=\max_{i=1}^n|x_i-y_i|$
- 欧几里得距离:$l_2=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}$
- 曼哈顿距离:$l_1=\sum_{i=1}^n|x_i-y_i|$
- 加权闵可夫斯基距离:$l=(\sum_{i=1}^nw_i|x_i-y_i|^p)^{\frac{1}{p}}$
- 马氏距离:$d(\vec x,\vec y)=\sqrt{(\vec x-\vec y)^TS^{-1}(\vec x-\vec y)}$
- $S$: 协方差矩阵
- $dist^2_{mah}(x_i,x_j)=(x_i-x_j)^TM(x_i-x_j)=||x_i-x_j||^2_M$,度量矩阵 $M$ 为半正定矩阵
- $M=PP^T$
- $\Vert x_i-x_j\Vert_M=\Vert P^Tx_i-P^Tx_j\Vert$
- 余弦距离:$d(x,y)=\frac{<x,y>}{|x||y|}$
离散距离
簇
- VDM(Value Difference Metric)
- $m_{u,a}$: 在属性 $u$ 上取值为 $a$ 的样本数
- $m_{u,a,i}$: 第$i$个样本簇在属性为 $a$ 的样本数
- $\text{VDM}p(a,b)=\sum{i=1}^k|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}|$
- $\text{MinkovDM}p=(\sum|x{iu}-x_{ju}|^p+\sum\text{VDM}p(x{iu},x_{ju}))^{\frac{1}{p}}$
字符串
- 海明距离
- Lee 距离
- Levenshtein (编辑距离)
$$ \text{lev}{a,b}=\begin{cases} \max(i,j); \min(i,j)=0\newline \min(\text{lev}{a,b}(i-1,j)+1,\text{lev}{a,b}(i,j-1)+1,\text{lev}{a,b}(i-1,j-1)+[a_i\not=b_i]) \end{cases} $$
非度量距离
不满足三角不等式(相似度度量无需满足三角不等式)
两组点集的相似程度
- Hausdorff 距离
- $\text{dist}_H(X,Z)=\max(\text{dist}_h(X,Z),\text{dist}_h(Z,X))$
- $\text{dist}h(X,Z)=\max{x\in X}\min_{z\in Z}||x-z||_2$
NCA
Neighbourhood Component Analysis 近邻成分分析
- 近邻分类器中 $x_j$ 对 $x_i$ 分类结果影响概率为:$p_{ij}=\frac{e^{-\Vert x_i-x_j\Vert^2_M}}{\sum_l e^{-\Vert x_i-x_j\Vert^2_M}}$
- $x_i$ LOO 正确率:$p_i=\sum_{j\in\Omega_i}p_{ij}$, $\Omega_i$ 为相同类别下标
- 训练集 LOO 正确率:$\sum_{i=1}^mp_i=\sum_{i=1}^m\sum_{j\in\Omega_i}p_{ij}$
- $\min_P 1-\sum_{i=1}^m\sum_{j\in\Omega_i}\frac{\exp(-||P^Tx_i-P^Tx_j||^2_2)}{\sum_l\exp(-||P^Tx_i-P^Tx_l||_2^2)}$
领域知识
必连约束$\mathcal{M}$,勿连约束$\mathcal{C}$
$$ \begin{aligned} \min_{M} & \sum_{(x_i,x_j)\in\mathcal{M}}\Vert x_i-x_j\Vert^2_M \newline s.t. & \sum_{(x_i,x_k)\in\mathcal{C}}\Vert x_i-x_k\Vert_M\geq 1 \newline & M \succeq 0 \end{aligned} $$
LMNN
Large Margin Nearest Neighbors
- $k$ 个目标邻居相近,入侵样本远离
- 目标邻居:最近的同类别样本
- 入侵样本:最近中的非同类别样本
$$ \begin{aligned} \min*{M} & \sum_{i,j\in N*i}d(x_i,x_j)+\sum_{i,j,l}\xi_{ijl} \newline s.t. & \forall_{i,j\in N_k,l,y_l\not=y_i} d(x_i,d_j)+1\leq d(x_i,x_l)+\xi_{ijl}\newline & \xi_{ijl}\geq 0 \newline & M\succeq0 \end{aligned} $$