笔记:PCA降维

快来打我* 2024-02-19 14:24 155阅读 0赞

作为一个非监督学习的降维方法,PCA(Principal Components Analysis)顾名思义,就是找出数据里最主要的方面,用数据里最主要的方面来代替原始数据。具体的,假如我们的数据集是n维的,共有m个数据(x1,x2,…,xm)。我们希望将这m个数据的维度从n维降到k维,希望这m个k维的数据集尽可能的代表原始数据集。但是,数据从 n维降到k维肯定会有损失,因此,PCA就是要是这个损失降到最小。

PCA数据降维步骤如下

输入:n维样本集X = (x1,x2,…,xm),要降维到的维数k

输出:降维后的样本集Y

1.对所有的样本进行中心化

2.计算样本的协方差矩阵

3.求出协方差矩阵的特征值及对应的特征向量

4.将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P

5.Y = PX即为降维到k维后的数据

PCA算法的主要优点有:

1,仅仅需要以方差衡量信息量,不受数据集以外的因素影响。 

2,各主成分之间正交,可消除原始数据成分间的相互影响的因素。

3,计算方法简单,主要运算是特征值分解,易于实现。

PCA算法的主要缺点有:

1,主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。

2,方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。

发表评论

表情:
评论列表 (有 0 条评论,155人围观)

还没有评论,来说两句吧...

相关阅读

    相关 补:PCA

    结合网上的资料,细看了两种求解PCA的方式。当进行协方差矩阵上求解特征值时,若矩阵的维数较小,则可以使用传统的求解方式,直接求出协方差矩阵的所有特征值和对应的特征向量。但是如果

    相关 笔记PCA

    作为一个非监督学习的降维方法,PCA(Principal Components Analysis)顾名思义,就是找出数据里最主要的方面,用数据里最主要的方面来代替原始数据。具体

    相关 ,PCA,SVD

    降维 > 机器学习的算法的计算量往往伴随着维度\\(d\\)的增长呈现指数型增长,例如线性感知机的VC维是\\(d+1\\) > > 去除无用的维度,保留有用的特征可以

    相关 PCA

    概念 在机器学习中经常会碰到一些高维的数据集,而在高维数据情形下会出现数据样本稀疏,距离计算等困难,这类问题是所有机器学习方法共同面临的严重问题,称之为“ 维度灾难 ”。

    相关 PCA原理

    PCA最重要的降维方法之一,在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用,一般我们提到降维最容易想到的算法就是PCA,目标是基于方差提取最有价值的信息,属于无监督问题。

    相关 PCA分析

    这里写目录标题 PCA降维的优化目标为: 关于为什么对协方差矩阵求特征值和特征向量可以实现各个变量两两间协方差为0,而变量方差尽可能大 > 参考博客:htt

    相关 PCA简介

    PCA全称为principal component analysis,即主成成分分析,用于降维。对数据进行降维有很多原因。比如: 1:使得数据更易显示,更易懂 2:降低