特征选择 Relief 方法

柔光的暖阳◎ 2021-09-25 00:52 660阅读 0赞

文章目录

    1. 原理
    1. 公式
    • 2.1 二分类
    • 2.2 多分类
    1. 参考

1. 原理

该方法假设特征子集的重要性是由子集中的每个特征所对应的相关统计分量之和所决定的。

所以只需要选择前 k k k 个大的相关统计量对应的特征,或者大于某个阈值的相关统计量对应的特征即可。

2. 公式

2.1 二分类

在这里插入图片描述
其中:

δ j \delta_j δj​ :属性 j j j 的相关统计量;

x i j x_i^j xij​:样本 x i x_i xi​ 中属性 j j j 的值;

x i , n h j x_{i,nh}^j xi,nhj​:样本 x i x_i xi​ 的 “猜中近邻” x i , n h x_{i,nh} xi,nh​ 中属性 j j j 的值;

x i , n m j x_{i,nm}^j xi,nmj​:样本 x i x_i xi​ 的 “猜错近邻” x i , n m x_{i,nm} xi,nm​ 中属性 j j j 的值;

d i f f ( x i j , x i , n h j ) diff(x_i^j,x_{i,nh}^j) diff(xij​,xi,nhj​):样本 x i x_i xi​ 和 x i , n h x_{i,nh} xi,nh​ 在属性 j j j 上值的差异;

d i f f ( x i j , x i , n m j ) diff(x_i^j,x_{i,nm}^j) diff(xij​,xi,nmj​):样本 x i x_i xi​ 和 x i , n m x_{i,nm} xi,nm​ 在属性 j j j 上值的差异;

若属性值为离散型,则 d i f f diff diff 当且仅当属性值相等时为 0,否则为 1;若属性值为连续型,则 d i f f diff diff 表示为距离。

2.2 多分类

在这里插入图片描述
δ j \delta_j δj​ :属性 j j j 的相关统计量;

x i j x_i^j xij​:样本 x i x_i xi​ 中属性 j j j 的值;

x i , n h j x_{i,nh}^j xi,nhj​:样本 x i x_i xi​ 的 “猜中近邻” x i , n h x_{i,nh} xi,nh​ 中属性 j j j 的值;

p l p_l pl​:第 l l l 类样本的比例;

x i , l , n m j x_{i,l,nm}^j xi,l,nmj​:样本 x i x_i xi​ 的第 l l l 类的 “猜错近邻” x i , l , n m x_{i,l,nm} xi,l,nm​ 中属性 j j j 的值;

d i f f ( x i j , x i , n h j ) diff(x_i^j,x_{i,nh}^j) diff(xij​,xi,nhj​):样本 x i x_i xi​ 和 x i , n h x_{i,nh} xi,nh​ 在属性 j j j 上值的差异;

d i f f ( x i j , x i , l , n m j ) diff(x_i^j,x_{i,l,nm}^j) diff(xij​,xi,l,nmj​):样本 x i x_i xi​ 和 x i , l , n m x_{i,l,nm} xi,l,nm​ 在属性 j j j 上值的差异;

3. 参考

知乎:特征选择–我要鼓励娜扎

发表评论

表情:
评论列表 (有 0 条评论,660人围观)

还没有评论,来说两句吧...

相关阅读

    相关 特征选择方法最全总结!

    上个月扫读完《阿里云天池大赛赛题解析》\[1\]后,看到书中对特征选择的讲述,于是便打算借此机会,系统梳理下各种特征选择方法。如有不足,还望指正。 ![992855fcfdb

    相关 基于sklearn的特征选择方法

    在数据挖掘工作中,通常处理的是一个包含大量特征且含义未知的数据集,并基于该数据集挖掘到有用的特征。那么这里面一般是四个步骤:特征工程、特征选择、模型构造、模型融合。特征工程主要

    相关 xgboost特征选择

    Xgboost在各[大数据][Link 1]挖掘比赛中是一个大杀器,往往可以取得比其他各种[机器学习][Link 2][算法][Link 3]更好的效果。数据预处理,特征工程,

    相关 特征选择_过滤特征选择

    一:方差选择法: 使用方差作为特征评分标准,如果某个特征的取值差异不大,通常认为该特征对区分样本的贡献度不大 因此在构造特征过程中去掉方差小于阈值特征 f