L04-概率与统计
频数&频率
频数
变量值中代表某特征的数的出现次数
频率
频数与总数之比
频率派视角下的概率
定义
做大量重复试验时,随着试验次数的增加,某一事件出现的频率,总在一个定值的附近稳定地摆动,便将此定值称为该事件的概率。
- 抛硬币挑边
- 掷骰子猜大小
- 抛铜钱鼓舞士气
布丰投针试验

1、白纸上平行线间距:t
2、针的长度:l(l<t)
3、随机向纸上投针n次
4、针相交与直线的次数记为m
- 理论上
用X, Y分别表示针的中点到最近的平行线的距离,Y表示针与平行线的夹角,则针与直线相交的的时候,必定有:

且X在(0,t/2)内服从均匀分布,Y在(0,π/2)内服从均匀分布,XY相互独立。
则X,Y的概率密度函数为:


所以,根据用频率估计概率的原则,只要进行大量投针试验,统计出频率,就可计算出π。
总结
- 试验必须可以进行很多次(易于操作,成本低,周期短)
- 缺乏一定的严谨性(如何确定“稳定”与否)
- 无法对不可多次重复的事件进行预判(毒理学检测, etc)
- 内在地觉得事件本身是随机的
贝叶斯派视角下的概率
频率派与贝叶斯派的掐架:
频率派:客观世界内在地存在随机性,这是自然规律
贝叶斯派:不,本身并没有客观的随机性,只是观察者没有上帝视角
频率派:我们要找出正确的概率模型参数,它是客观存在且唯一正确的
贝叶斯派:既然我们都没有上帝视角了,如何知道哪一个是正确的?
……
对于贝叶斯派而言,他们认为所谓的「随机」,只是由于人没有办法掌握全局信息。
比如,对于有内幕消息的人来说,股市的波动是确定的,对于普通散户而言,股市的波动是随机不确定的
所以,贝叶斯派将「概率」视为对某种结果出现的信任程度,而非频率。
古典概型
定义:若一个随机试验包含的基本事件的数量是有限的,且各个基本事件发生的可能性均相等,则此种概率模型称为古典概型。
特征
- 包含的基本事件数量有限
- 所有基本事件发生的概率均相等
- 任意两个基本事件之间是互斥的
场景
- 掷骰子,抛硬币,彩票抽奖,婴儿的出生日期
- 选择题不会全靠蒙,so many……
计算公式

m:A事件包含的基本事件个数,n:基本事件总数
几何概型
定义:若每个事件发生的概率只与构成该事件区域的度量(长度,面积,体积或度数)成比例,则称这样的概率模型为几何概型。
实质:将古典概型从有限到无限的扩展
特征
- 包含的基本事件数量无限
- 所有基本事件发生的概率均相等
- 任意两个基本事件之间是互斥的
场景
- 对于不规则形状面积的测量
- 相遇问题
联合概率
定义:两个或多个事件同时发生的概率
符号表示:P(AB)或P(A,B)
计算
- 对于相互独立的事件, P(AB)=P(A)P(B)
- 若并非相互独立的事件,P(AB)=P(A|B)P(B)
条件概率
- 定义:事件B已发生的前提下,事件A发生的概率
- 符号表示:P( A│B )
随机变量
- 一次随机试验可能出现的结果的数量化表示
- 一般用大写字母表示,如X, Y
- 抛掷两个骰子得到的向上的点数之和就是一个随机变量
- 连续型随机变量,如街访一个人,他/她的身高
- 离散型随机变量,如街访一个人,他/她的性别
数学期望
每种可能的结果乘上对应的概率再相加
期望的性质
1. E(C)=C,C为常数 1. E(CX)=CE(X),C为常数 1. E(X+Y)=E(X)+E(Y) 1. E(XY)=E(X)E(Y),当X, Y相互独立时 1. E(XY)需按照定义去计算,当X,Y不独立时
方差
度量随机变量和其数学期望之间的偏离程度


- 方差的性质
1. D(C)=0,C为常数
2. D(X+C)=D(X),C为常数
3. D(CX)=C^2 D(X),C为常数
4. D(X+Y)=D(X)+D(Y)+2Cov(X, Y)
5. D(X+Y)=D(X)+D(Y),当X和Y相互独立时
Cov(X, Y)=E{[X-E(X)][Y-E(Y)} : 协方差
标准差

(1)度量效果与方差一致
(2)方差的量纲和随机变量不一致
协方差
用于衡量两个变量的总体误差
协方差为正:两个变量的变化趋势相同,当一个大于其期望值时,另一个也大于,小于的情况亦然
协方差为负:两个变量的变化趋势相反,当一个大于其期望值时,另一个就小于,反之亦然
协方差为0:两个变量无线性相关性
两个变量独立,则协方差一定为0,但反之并不一定成立
- 公式

二项分布
- 定义
在同样的条件下,重复n次独立的随机试验,在每次试验中只有两种可能的结果(事件发生或不发生),而且两种结果发生与否互相对立,且两种结果发生的概率在每一次独立试验中都保持不变,则这一系列的试验称为服从二项分布。
ξ 表示随机试验的结果(事件发生的次数),p代表事件发生的概率,在N次独立重复试验中发生K次的概率是:

- 期望:Eξ=np
- 方差:Dξ=np(1-p)
大数定理:即便某一事件发生的概率极小,但重复次数足够多的话,它发生的概率会趋向于1
高斯分布

定义
荣号:上帝的分布
生活中无处不在
- 人群的身高分布
- 学生成绩的分布
- 社会财富的分层
- ·······
在分布未知的情况下,用高斯分布去拟合
X~N(μ,σ^2 ),概率密度函数为:

标准正态分布
当μ=0,σ=1时,
- 一般将正态变量转化为标准正态分布来研究处理

X在某值处的概率值为标准正态曲线从 -∞ 到 X 围成的面积占总面积的比例
中心极限定理
为什么正态分布会如此多见?靠山:中心极限定理
内容:大量相互独立的随机变量的均值经标准化后收敛于正态分布
操作:每次从总体中随机抽取n个样本,一共抽m次,对这m组样本分别求均值,则这些均值的分布接近正态分布
数学描述:

- 中心极限定理的威力:总体本身的分布无需是正态分布,只需同分布即可
泊松分布
场景
- 某个十字路口不同时刻的车流量
- 放射性元素的放射强度随时间变化的情况
- 不同时段餐厅的用餐人数
- ······
定义
泊松分布:(描述单位时间内随机事件发生某一次数k的概率)

其中,参数λ为单位时间段(或单位面积)内随机事件的平均发生次数对于泊松分布而言,其期望值和方差均为λ
前提条件
泊松分布有效的前提条件:
若某一随机事件在一段时间或某个空间内发生的期望为λ,则将此段时间(空间)等分成n份,使得在这每一小份中,至多让随机事件发生一次,或者不发生;且在这一小份中,时间发生的概率为λ/n,不发生的概率为1-λ/n;
任意两个等份是否发生该事件是相互独立的
在这一段时间内,此事件发生k次的概率为:

贝叶斯统计
贝叶斯公式
贝叶斯公式:由条件概率可得:

按照贝叶斯的语言:
- X:样本(可被观测到的)
- Y:产生样本的内在机制参数
- P( Y│X ):后验概率(posterior)
- P(X):证据(evidence)
- P( X│Y ):似然估计(likelihood)
- P(Y): 先验概率(prior)
总结
频率派只关注X(观测到的样本)
贝叶斯派认为除了X之外,还应对样本产生的机制参数预估一个先验分布,甚至可以从主观的角度预估,比如:去猜测一本书的价格,人会在心里预估出一个价格范围,例如不会超过一千美金
贝叶斯派做分析必须用到参数先验分布,哪怕主观意识去预估
先验分布( P(Y) )是在抽样之前对参数的预估,而在获得样本之后,人们对于参数的判断会根据样本发生变化,便得到了参数的后验分布( P( Y│X ) )
通过贝叶斯公式可以求得后验分布
机器学习分类指标
设有正,负两种样本,模型对于样本的判断会有四种结果:

- 精确率:代表预测为正的样本有多少是真的正样本

- 召回率:代表正的样本有多少被预测正确(找出来)了

- 准确率:代表模型对所有分类预测正确的比例
