【机器学习笔记】K-Nearest Neighbors Algorithm(最近邻算法,KNN)

灰太狼 2023-05-30 03:43 103阅读 0赞

要点

  • 第一步:准备已知类别的数据集(比如不同类型的肠道肿瘤细胞),使用PCA进行简化。这些数据集被称为训练数据(Training Data)。
  • 第二步:寻找合适的K值。K-Nearest Neighbors中的“K”表示序列号/数目。
  • 第三步:从另一个肠道提取类别未知的新细胞加到PCA图中。
  • 第四步:寻找新细胞的最近邻细胞。

#

KNN是对数据进行分类的一种超级简单的算法。

第一步:准备已知类别的数据集(比如不同类型的肠道肿瘤细胞),使用PCA进行简化。这些数据集被称为训练数据(Training Data)。

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhMWZfQXdha2U_size_16_color_FFFFFF_t_70

第二步:寻找合适的K值。K-Nearest Neighbors中的“K”表示序列号/数目。

第四步显示了如何使用K值。

寻找K值需要训练与测试,因此我们要将训练数据划分出一部分作为测试数据(Testing Data)。

K值较小时,容易受附近的异常值影响;K值较大时,数据较少的类别容易被覆盖。

可以顺便尝试交叉验证法:https://blog.csdn.net/Ha1f_Awake/article/details/102900491

第三步:从另一个肠道提取类别未知的新细胞加到PCA图中。

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhMWZfQXdha2U_size_16_color_FFFFFF_t_70 1

第四步:寻找新细胞的最近邻细胞。

在下面例子中,假如K=11,其中7个最近邻点是红色,3个最近邻点是橙色,1个最近邻点是绿色,则新细胞最终被判定为红色。

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhMWZfQXdha2U_size_16_color_FFFFFF_t_70 2

发表评论

表情:
评论列表 (有 0 条评论,103人围观)

还没有评论,来说两句吧...

相关阅读

    相关 [机器学习] k-近邻算法(knn)

    最近在参加大数据的暑期培训,记录一下学习的东西。   引言   懒惰学习法:简单的存储数据,并且一直等待,直到给定一个检验数据,才进行范化,以便根据与存储的训练元组的相似