python机器学习08:数据降维
#1.PCA主成分分析
举个例子,我们新买的汽车有两个特征来影响我们的心情:一个是动力;另一个是外观
如图:
从图中,我们可以看出汽车外观对小I的喜好影响比较大,而性能则影响相对较小。这样我们可以在图中添加一点标注,如下图:
图中,我们把数据点分布最“长”的方向标注为“成分1”,而与之成90度角方向标注为“成分2”。假如现在,我们让“成分2”取值为0,把“成分1”作为横坐标,重新画这个图,如下图:
经过这样的处理后,数据集从一个散点组成的面变成了一条直线
#1.PCA主成分分析
举个例子,我们新买的汽车有两个特征来影响我们的心情:一个是动力;另一个是外观
如图:
从图中,我们可以看出汽车外观对小I的喜好影响比较大,而性能则影响相对较小。这样我们可以在图中添加一点标注,如下图:
图中,我们把数据点分布最“长”的方向标注为“成分1”,而与之成90度角方向标注为“成分2”。假如现在,我们让“成分2”取值为0,把“成分1”作为横坐标,重新画这个图,如下图:
经过这样的处理后,数据集从一个散点组成的面变成了一条直线
2、降维的意义 首先我们为什么要降维? 假如我们拿到的数据很多很多,有上百个数据特征(x1,x2,x3…),这些样本对于你的预测值y真的起到作用吗?就比如说我要预
import warnings import numpy as np import pandas as pd import matplotlib
特征工程 定义:将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性。 内容:主要有三部分: 1、特征抽取 2、
PCA(Principal Component Analysis 主成分分析) PCA主要用于非线性数据的降维,需要用到核技巧。因此在使用的时候需要选择合适的核函数并对核函
降维的作用:压缩和可视化 数据压缩(3D–>2D):减少数据从3D到2D ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpd
降维学习 在概率统计模块,我详细讲解了如何使用各种统计指标来进行特征的选择,降低用于监督式学习的特征之维度。接下来的几节,我会阐述两种针对数值型特征,更为通用的降维方法,
\1.PCA主成分分析 举个例子,我们新买的汽车有两个特征来影响我们的心情:一个是动力;另一个是外观 如图: ![汽车的外观和动力对小I喜好的影响][I] 从图
1.原理和概念 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。 PCA的主要思想是将n维特征映射
还没有评论,来说两句吧...