性能度量
- 性能度量,有效性指标 validity index
- 外部指标:与某个参考模型比较
- 簇划分:$\mathcal{C}={C_1,C_2,\cdots,C_k}$, 参考模型簇划分 $\mathcal{C}^={C_1^,C_2^,\cdots,C_s^}$,$\lambda,\lambda^*$ 为分别为两者簇标记向量,定义
- $a=|\text{SS}|,\text{SS}={(x_i,x_j)|\lambda_i=\lambda_j,\lambda_i^=\lambda_j^,i<j}$
- $b=|\text{SD}|,\text{SD}={(x_i,x_j)|\lambda_i=\lambda_j,\lambda_i^\not=\lambda_j^,i<j}$
- $c=|\text{DS}|,\text{DS}={(x_i,x_j)|\lambda_i\not=\lambda_j,\lambda_i^=\lambda_j^,i<j}$
- $d=|\text{DD}|,\text{DD}={(x_i,x_j)|\lambda_i\not=\lambda_j,\lambda_i^\not=\lambda_j^,i<j}$
- $a+b+c+d=\frac{m(m-1)}{2}$
- JC (Jaccard Coefficent)
- $\text{JC}=\frac{a}{a+b+c}$
- FMI (Fowlkes and Mallows Index)
- $\text{FMI}=\sqrt{\frac{a}{a+b}\frac{a}{a+c}}$
- RI (Rand Index)
- $\text{RI}=\frac{2(a+d)}{m(m-1)}$
- 簇划分:$\mathcal{C}={C_1,C_2,\cdots,C_k}$, 参考模型簇划分 $\mathcal{C}^={C_1^,C_2^,\cdots,C_s^}$,$\lambda,\lambda^*$ 为分别为两者簇标记向量,定义
- 内部指标
- 簇划分:$\mathcal{C}={C_1,C_2,\cdots,C_k}$
- $\text{avg}(C)=\frac{2}{|C|(|C|-1)}\sum_{1\leq i<j\leq|C|}\text{dist}(x_i,x_j)$ 簇内样本平均距离
- $\text{diam}(C)=\max_{1\leq i<j\leq|C|}\text{dist}(x_i,x_j)$ 簇内样本间最远距离
- $d_{\min}(C_i,C_j)=\min_{x_i\in C_i,x_j\in C_j}\text{dist}(x_i,x_j)$
- $d_{\text{cen}}(C_i,C_j)=\text{dist}(\mu_i,\mu_j)$
- DBI (Davies-Bouldin Index)
- $\text{DBI}=\frac{1}{k}\sum_{i=1}^k\max_{j\not=i}(\frac{\text{avg}(C_i)+\text{avg}(C_j)}{d_{\text{cen}}(C_i,C_j)})$ 越小越好
- DI (Dunn Index)
- $\text{DI}=\min_{1\leq i\leq k}(\min_{j\not=i}(\frac{d_{\min}(C_i,C_j)}{\max_{1\leq l\leq k}\text{diam}(C_l)}))$ 越大越好
- 簇划分:$\mathcal{C}={C_1,C_2,\cdots,C_k}$
原型聚类
- SOM: self-organizing maps
k-means
- 最小化平均误差 $E=\sum_{i=1}^k\sum_{x\in C_i}||x-\mu_i||_2^2$ ($\text{NP}$-hard)
- 贪心策略:迭代优化
- k-medoids: represented by objects near center
LVQ
Learning Vector Quantization 学习向量量化
- 利用样本监督信息
- 每次迭代,每个样本对其最近的原型向量根据标记一致性做推动/吸引
- 每个原型向量 $p_i$ 定义了与之相关的一个区域 $R_i$,形成了对样本空间的 Voronoi tessellation
高斯混合聚类
- 高斯混合分布:$p_M(x)=\sum_{i=1}^k\alpha_ip(x|\mu_i,\Sigma_i),\sum_{i=1}^k\alpha_i=1$
- EM 算法求解
- $\text{LL}(D)=\ln(\prod p_M)=\sum_{j=1}^m\ln(\sum_{j=1}^k\alpha_i p(x_j|\mu_i,\Sigma_i))$
- E: $\gamma_{ji}=p_M(z_j=i|x_j)$
- M
- $\mu_i’=\frac{\sum{\gamma_{ji}x_j}}{\sum_{j=1}^m\gamma_{ji}}$
- $\Sigma_i’=\frac{\sum\gamma_{ji}(x_j-\mu_i’)(x_j-\mu_i)^T}{\sum\gamma_{ji}}$
- $\alpha_i’=\frac{\sum\gamma_{ji}}{m}$
密度聚类
假设聚类结构能通过样本分布的紧密程度确定
DBSCAN
- $\epsilon$-邻域:$N_\epsilon(x_i)={x_i\in D|\text{dist}(x_i,x_j)\leq\epsilon}$
- 核心对象: $x_j,|N_\epsilon(x_j)|\geq\text{MinPts}$
- directly denisty-reachable: $x_j\in N_\epsilon(x_i)$ 且 $x_i$ 为核心对象,则 $x_j$ 由 $x_i$ 密度可达(无对称性)
- density-reachable
- density-connected: $\exists x_k$, $x_i,x_j$ 均由 $x_k$ 密度可达
- 簇 为满足下列性质最大集合
- connectivity: $x_i\in C, x_j\in C$ 则 $x_i,x_j$ 密度相连
- maximality: $x_i\in C$, $x_j$ 由 $x_i$ 密度可达则 $x_j\in C$
- 算法:
- 找出所有核心对象
- 对每个核心对象求 $X={x’\in D|x’$由$x$密度可达$}$
DIANA
top down
层次聚类
自底向上或自顶向下
AGNES
agglomerative nesting
- 自底向上
- 起初每个样本点为一个簇
- 不断合并最近两个簇
name | d |
---|---|
single-linkage | min |
complete-linkage | max |
average-linkage | avg |