文本聚类
层次聚类
层次聚类可以表示为树图的形式。
单/全连通聚类
寻找两个集合之间最相似样本之间的相似度。
算法过程:
初始每一个节点为一类,计算每两类中最近节点的距离,并选取距离最小的进行合并。
如图,第一回合聚类结果为{a, b}, {c, d}, {e, f}, {g, h}。第二回合聚类结果为{a, b, c, d}, {e, f, g, h}
但是a和d之间的距离实际上比a和e之间的距离要大,因此这种算法可能会导致拉长聚类区域。
全连通聚类
全连通聚类考虑的是最不相近样本之间的聚类,然后选取这些距离中最小的进行聚类。
平均连通聚类
平均连通聚类定义了一个相似度$S(Cj ) = \frac{1}{|c_j |(|c_j |-1)}\sum{\vec{x} \in cj}\sum{\vec{x} != \vec{y} \in c_j} sim(\vec{x}, \vec{y})$
我们需要计算S($c_u \cup c_j$),并且合并结果最大的两个集合
非层次聚类
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
Comment