无监督学习算法中层次聚类（Hierarchical Clustering）-蒲公英云

无监督学习算法中层次聚类（Hierarchical Clustering）

水深无声 2024-03-24 22:29 216阅读 0赞

层次聚类是一种无监督学习算法，用于将一组数据点划分为不同的聚类簇。与其他聚类算法不同，层次聚类还能够构建一个层次化的聚类树，可以展示出数据点之间的层次结构关系。层次聚类算法有两种主要的方法：凝聚式聚类（Agglomerative Clustering）和分裂式聚类（Divisive Clustering）。凝聚式聚类从每个数据点作为一个单独的聚类开始，然后逐步合并最相似的聚类，直到得到所需数量的聚类簇。合并的相似度可以通过距离度量（如欧氏距离）来计算。分裂式聚类则是从所有数据点作为一个聚类开始，然后逐步将聚类分裂为更小的子聚类，直到每个聚类簇只包含一个数据点。层次聚类的主要优点是可以自动确定聚类的数量，因为聚类树的结构可以通过不同的截断阈值来解释。此外，层次聚类还可以提供更详细的聚类结构，可以更好地理解数据点之间的相似性和关系。然而，层次聚类的计算复杂度较高，尤其是在数据量较大时。此外，层次聚类对噪声和离群值比较敏感，可能会导致不稳定的聚类结果。在实际应用中，可以根据具体任务和数据特点选择合适的层次聚类算法，并结合其他的聚类评估指标来评估聚类质量。

以下是一个使用Python中的scikit-learn库进行层次聚类的代码示例：

pythonCopy codefrom sklearn.cluster import AgglomerativeClustering
import numpy as np
# 创建一个示例数据集
X = np.array([[1, 2], [1.5, 1.8], [5, 8], [8, 8], [1, 0.6], [9, 11]])
# 创建一个层次聚类对象
clustering = AgglomerativeClustering(n_clusters=2)
# 训练模型并预测数据点的所属聚类簇
clustering.fit(X)
labels = clustering.labels_
# 输出每个数据点的所属聚类簇
print(labels)

在上面的代码中，首先导入了AgglomerativeClustering类和numpy库。然后，创建了一个示例数据集X，其中包含6个二维数据点。接下来，创建了一个AgglomerativeClustering对象，并通过n_clusters参数指定了期望的聚类簇数量为2。然后，使用fit()方法训练模型，并使用labels_属性获取每个数据点的所属聚类簇标签。最后，通过打印labels数组，输出每个数据点的所属聚类簇。请注意，这只是一个简单的示例，实际应用中可能需要根据数据集的特点和要解决的问题进行参数调整和优化。

无监督学习算法中层次聚类（Hierarchical Clustering）

概述

原理

算法

应用

总结

无监督学习算法中层次聚类（Hierarchical Clustering）

概述

层次聚类（Hierarchical Clustering）是一种常用的无监督学习算法，用于将数据集中的样本按照相似性组织成一个层次结构。它的主要思想是通过计算样本之间的距离或相似度，将最相似的样本聚在一起，并逐步合并形成越来越大的簇。本文将介绍层次聚类的原理、算法和应用，帮助读者更好地理解和应用这一强大的机器学习算法。

原理

层次聚类的核心思想是通过计算样本之间的距离或相似度来判断它们之间的关系，并将相似的样本聚在一起。这样的聚类过程可以形成一棵树状结构，称为聚类树或树状图。树的每个节点代表一个簇，叶子节点代表一个样本，而内部节点代表由子节点组成的簇。通过对聚类树进行剪枝或切割，可以得到不同层次的聚类结果。

算法

层次聚类的算法有两种主要的方法：凝聚（自底向上）和分裂（自顶向下）。

凝聚层次聚类：从每个样本作为一个簇开始，迭代地合并最相似的簇，直到所有样本都被合并成一个簇。合并的相似度可以使用不同的距离度量方法，如欧氏距离、曼哈顿距离等。
分裂层次聚类：从所有样本作为一个簇开始，迭代地将最不相似的簇分裂为更小的簇，直到每个簇只包含一个样本。分裂的不相似度可以使用不同的相似度度量方法，如相异度、距离等。层次聚类算法的时间复杂度较高，通常需要O(n^2)或O(n^3)的计算量，其中n是样本的数量。为了加快计算速度，还可以使用一些优化技术，如近似算法、采样等。