中科院统计学基础笔记
第一课
有监督学习:回归、分类
无监督学习:概率密度估计、聚类、降维
参考书目:All of Statistics:A Concise Course in Statistical Inference
第一部分 概率基础
概率的解释:(1)频率的解释
(2)可信度的解释
独立事件: P(AB)=P(A)P(B) 相交不一定不独立 不想交不等于独立
条件概率 P(中科院统计学基础笔记A|B)=P(AB)/P(B) 通常P(A|B)不等于P(B|A)
贝叶斯公式
第二课
随机变量及其概率描述
积累分布函数(CDF): F(X)=P(X<=x)
离散型 概率函数(pmf):
连续性 概率密度:
均匀分布: Uniform(0,1)
分为函数(quantile function)
常见分布族 (1)离散 (2)连续
正态分布(高斯分布)
μ:位置(location)参数 σ:尺度(scale)参数
中心极限定理:随机样本的均值近似服从正态分布
例:样本X1,X2…Xn, 则X(均值)≈N(μ,σ²/n)
标准正态分布:μ=0,σ²=1
二元随机向量联合分布
离散联合概率函数(pmf) f(x,y)= P(X=x,Y=y)
CDF: F(x,y) = P(X≤x, Y≤y)
连续性联合概率函数:
边缘分布
条件分布
条件独立
f(x,y|z)=f(x|z)f(y|z)
多元随机变量分布
IID(Independent
Identically Distribution)
第三课
期望/均值:
一阶矩
E(X)=∫ xdF(x) = ∫ xf(x)dx (连续)
∑xf(x) (离散)
大数定律:
随机变量变换的期望
期望的性质
加法规则: E(∑aiXi)=∑aiE(Xi)
线性运算: E(aX+b)=aE(X)+b
乘法规则: (相互独立)E(∏Xi)=∏E(Xi)
中位数、众数
方差:散布程度、二阶中心矩
性质: V(X)=E(X²)-μ²
V(aX+b)=a²V(X)
若独立
V(∑ aiXi)= ∑ ai²V(Xi)
样本的均值和方差
X(均值)=1/n ∑ Xi S²=1/(n-1) ∑(Xi-X)²
样本均值的均值和方差 E(X(均值))=μ V(X(均值))= σ²/n
第四课
协方差/相关系数
Cov(X,Y)=E[(x-μ_x)(y-μ_y)] ρ=Cov(X,Y)/σ_Xσ_Y
Cov(X,Y)=E(XY)-E(X)E(Y) -1≤ ρ≤1
如X,Y独立,则 Cov(X,Y)=0 但反之不一定成立
V(X+Y)= V(X-Y)=V(X)+V(Y)
V(X+Y)=V(X)+V(Y)+2Cov(X,Y)
第五课
条件期望
E[E(Y|X)]=E(Y) E[E(X|Y)]=E(X)
条件方差
层次模型
例: x|μ∽N(x,μ,σ) 且 μ∽N(0,1)
矩 r阶矩:μ=E(X^r) r阶中心矩:μ=E((X-μ)^r)
三阶矩: 偏度 四阶矩:峰度
矩母函数
第六课
概率不等式
概率的不等式: Markov不等式 P(X>t)= E(X)/t
Chebyshev不等式 P(|X-μ|≥t)≤σ²/t²
Hoeffding 不等式
期望不等式: Cauchy-Schwarze 不等式 E(|XY|)=sqr(E(X²)E(Y²))
Jensen不等式
第七课
收敛性
(1)依收敛概率 (2)依分布收敛:中心极限定理
依概率: P(|Xn-X|>ε)->0 依分布:limF(t)=F(t)
其他收敛:均方收敛(L2收敛)、L1收敛、几乎处处依概率收敛
各收敛之间的关系
伯努利大数定律:
收敛的性质
弱大数定律(WLLN):IID(独立同分布)X1…Xn, E(Xi)=μ,V(Xi)=σ^2<∞,则Mean(Xn)=1/n∑Xi依概率收敛于μ,V(Xi)依概 率收敛于σ^2
强大数定律(SLLN)
中心极限定理: IID X1…Xn,E(Xi)=μ,V(Xi)=σ2<∞,则样本均值ean(Xn)=1/n∑Xi近似服从期望为μ方差为σ2/n的正态分布
正态近似程度:
多分布的中心极限定理
Deta方法:复杂变换的中心极限定理 Yn≈N(μ,σ^2/n) -> g(Yn)≈N(g(μ),g’(μ)2σ2/n)
产生随机样本
均匀分布: 伪随机数产生器
其他分部 (1) 直接方法: 概率积分变换 (2)间接方法: 接收/拒绝算法(重要性采样) MCMC方法 Monte Carle
变型: 离散型随机变量的采样
第八、九、十、十一课
模拟方法(Monte Carlo方法)
产生独立样本 基本方法:概率积分变换(不能全部解决问题) 接收-拒绝采样 重要性采样
产生相关样本:Markov Chain Monte Carlo(MCMC) Metropolis 算法 Gibbs Sampler
用到Monte Carlo的地方 (1)模拟采样 (2)积分 (3)优化:极大似然估计 (4)学习:隐含变量的学习
π(x)采样 接受-决绝采样 π(x)<=Mq(x) 通过对q(x)的采样实现对π(x)的采样
MCMC:设计一个马尔科夫链,使其稳定概率为目标分布P(X)
第十二、十三课
从任意状态开始,利用一个转换核,产生一个多态历经的链Xt,其稳定分布为该兴趣的目标分布 π(x)
设计MCMC时考虑的因素 (1)不可约性:即不能有吸收态 (2)循环性 (3)各态历经性
细致平衡是系统平衡的充分条件。
系统总平衡: ∑π(x)P(x,y)=π(y)
细致平衡: π(x)P(x,y)= π(y)P(y,x)
Metropolis-Hastings 方法
第十四课
统计推断
概率:
从数据产生过程到观测到的数据
统计推断:从观测到的数据到数据产生过程
基本问题:点估计、置信区间、假设检验
参数模型、非参数模型
无偏性、一致性、有效性
参数模型: 若为正态
f(x|μ,σ)
非参数模型: 不能用有限个参数参数化
如:所有CDF集合、非参数密度估计
统计推断方法:(1)频率推断:极大似然估计
(2)贝叶斯推断
点估计:
对一个感兴趣的真值θ做一个最佳估计θ’,θ’为随机变量,抽样分布θ’的分布为标准分布,θ’标准差为标准误 差的se
高级评价:均方误差 MSE=E(θ’-θ)2=bias(θ’)2+V(θ’)
当n->∞, bias->0且 se->0,则θ’是一致的
置信区间:
α=0.05 z=1.96
假设检验
第十五课
非参数估计
CDF估计
一些流行的非参数化法:(1)直方图、核密度估计(密度估计)
(2)样条、小波回归(回归)
(3)核判别分析、最近邻、SVM
非参数方法有时称局部模型 如 核回归
令X1…Xn~F为IID,则经验分布函数Fn’的定义为
Fn’= ∑I(Xi<=X)/n 其中, I(Xi<=X)= 1 if Xi
统计函数 : 均值、方差、中值
第十六课
标准误差se的估计
(1)影响函数(解析的方法) (2)Bootstrap方法(模拟的方法)
重采样技术 (1)Bootstrap (2)刀切法
Bootstrap: 用计算机做重采样
基本思想:利用样本数据计算统计量和估计样本分布,而不对模型做任何假设(非参数Bootstrap)
样本的采集(有放回的抽取数据) 即重采样、模拟的步骤
Bootstrap方差估计
步骤:(1)采样 (2)计算 (3)重复(1)(2)的步骤共B次 (4)
发生了两个近似:n、B 近似程度与n、B有关,因此不能太小
CDF的Bootstrap近似
偏差估计Bootstrap
Bootstrap置信区间
B的选取
非参Bootstrap失败的情况: 用参数化Bootstrap会更好(加了对F的先验)
Bootstrap不适用的场合:(1)样本量n太小 (2)结构间有关联(如时间空间序列信号)
(3)脏数据 (奇异点)
第十七课
刀切法(jacknife)
思想:从原始n个样本无放回拿出m个,组成jacknife的样本
计算步骤
一般 m= n-1 则会有m个jacknife样本(样本数很少时)
估计样本分位数时,刀切法不是一个一致估计
一般bootstrap得到的结果要好一点
不适用的场合:统计函数不平滑:如极值、中值(也不适合非参bootstrap)
Bootstrap的参考文献
第十八课
参数推断
方法: (1)矩方法 (2)极大似然估计
参数模型的例子:(1)线性判别分析(分类) (2)混合高斯模型(密度估计) (3)高斯噪声模型(回归)
矩方法: 可能不是最优,但方便计算 可用作求迭代计算初值
基本思想:矩匹配
极大似然估计
步骤: 似然函数 对似然函数求极值
似然函数: 令X1…Xn为IID, PDF为f(x,θ),则似然函数定义为 Ln(θ)=πf(Xi,θ) 表示的是在给定x的情况 下对于θ的一个函数
极大似然估计 θ‘=argmaxLn(θ) 即对比不同θ下数据X出现的概率(利用求导可以求出)
log似然函数 l(θ)=logLn(θ)
对似然函数求极值:(1)解析法(即求导数) (2)数值计算、优化算法
EM:迭代 混合高斯
EM收敛到局部极值点,但不能保证全局最优
第十九课 第二十课
MLE的性质
(1)一致性(相合性)(2)同变性 (3)渐近正态 (4)渐进有效/最优 (5)近似于贝叶斯估计
一致性
KL散度(相对熵):f和g为两个分部 D(f,g)=∫f(x)log[f(x)/g(x)]
极大似然估计=min(KL散度)
同变性
渐近正态性
(θ’-θ)/se’(θ’) 依分布收敛N(0,1)
多位参数模型
相对有效性
计算极大似然估计:(1)牛顿法:泰勒级数展开 (2)迭代:θ‘(t+1)=θ(t)+l(θ(t))’/l(θ(t))’’
EM法: Expectation Maximization
特别适合:缺失数据 问题中对MLE的求解
E-步:求期望(完整似然的期望)
M-步:求极大值
EM总结
第二十二课
假设检验
原假设 备择假设
双边假设 单边假设 第一类错误 第二类错误
检验容度 检验的水平
最优检验
第二十三课 第二十四课
Neyman & Person 体系
Fisher 体系: 不存在备择假设(P值)
Baysian体系: 原假设与备择假设看成随机变量
Wald检验
Wald的检验功效
p值、p值的性质
似然比检验
基本思想:考察在原假设下更可能观察到当前数据还是在备择假设下更容易观察到
适合检验向量参数, wald适合检验标量
分布的假设检验 (goodness of fit)
卡方检验: 给定一个分布,检验样本是否是取自于该分布
是在总体的X的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法
魏主席注: 给定一组数据,先假设其服从某分布,用极大似然求出该分布的参数,才用卡方检验
n要足够大,np不能太小
置换检验 重采样技术
还没有评论,来说两句吧...