频数&频率

频数

变量值中代表某特征的数的出现次数

频率

频数与总数之比

频率派视角下的概率

定义

做大量重复试验时，随着试验次数的增加，某一事件出现的频率，总在一个定值的附近稳定地摆动，便将此定值称为该事件的概率。

抛硬币挑边
掷骰子猜大小
抛铜钱鼓舞士气

布丰投针试验

1、白纸上平行线间距：t

2、针的长度：l(l<t)

3、随机向纸上投针n次

4、针相交与直线的次数记为m

理论上

用X, Y分别表示针的中点到最近的平行线的距离，Y表示针与平行线的夹角，则针与直线相交的的时候，必定有：

且X在(0,t/2)内服从均匀分布，Y在(0,π/2)内服从均匀分布，XY相互独立。

则X,Y的概率密度函数为：

所以，根据用频率估计概率的原则，只要进行大量投针试验，统计出频率，就可计算出π。

总结

试验必须可以进行很多次（易于操作，成本低，周期短）
缺乏一定的严谨性（如何确定“稳定”与否）
无法对不可多次重复的事件进行预判（毒理学检测, etc）
内在地觉得事件本身是随机的

贝叶斯派视角下的概率

频率派与贝叶斯派的掐架：

频率派：客观世界内在地存在随机性，这是自然规律

贝叶斯派：不，本身并没有客观的随机性，只是观察者没有上帝视角

频率派：我们要找出正确的概率模型参数，它是客观存在且唯一正确的

贝叶斯派：既然我们都没有上帝视角了，如何知道哪一个是正确的？

……

对于贝叶斯派而言，他们认为所谓的「随机」，只是由于人没有办法掌握全局信息。

比如，对于有内幕消息的人来说，股市的波动是确定的，对于普通散户而言，股市的波动是随机不确定的

所以，贝叶斯派将「概率」视为对某种结果出现的信任程度，而非频率。

古典概型

定义：若一个随机试验包含的基本事件的数量是有限的，且各个基本事件发生的可能性均相等，则此种概率模型称为古典概型。
特征
- 包含的基本事件数量有限
- 所有基本事件发生的概率均相等
- 任意两个基本事件之间是互斥的
场景
- 掷骰子，抛硬币，彩票抽奖，婴儿的出生日期
- 选择题不会全靠蒙，so many……
计算公式

m：A事件包含的基本事件个数，n：基本事件总数

几何概型

定义：若每个事件发生的概率只与构成该事件区域的度量（长度，面积，体积或度数）成比例，则称这样的概率模型为几何概型。
实质：将古典概型从有限到无限的扩展
特征
- 包含的基本事件数量无限
- 所有基本事件发生的概率均相等
- 任意两个基本事件之间是互斥的
场景
- 对于不规则形状面积的测量
- 相遇问题

联合概率

定义：两个或多个事件同时发生的概率
符号表示：P(AB)或P(A,B)
计算
- 对于相互独立的事件， P(AB)=P(A)P(B)
- 若并非相互独立的事件，P(AB)=P(A|B)P(B)

条件概率

定义：事件B已发生的前提下，事件A发生的概率
符号表示：P( A│B )

随机变量

一次随机试验可能出现的结果的数量化表示
一般用大写字母表示，如X, Y
抛掷两个骰子得到的向上的点数之和就是一个随机变量
连续型随机变量，如街访一个人，他/她的身高
离散型随机变量，如街访一个人，他/她的性别

数学期望

每种可能的结果乘上对应的概率再相加

期望的性质

 1. E(C)=C，C为常数
 1. E(CX)=CE(X)，C为常数
 1. E(X+Y)=E(X)+E(Y)
 1. E(XY)=E(X)E(Y)，当X, Y相互独立时
 1. E(XY)需按照定义去计算，当X,Y不独立时

方差

度量随机变量和其数学期望之间的偏离程度

方差的性质

1. D(C)=0，C为常数

2. D(X+C)=D(X)，C为常数

3. D(CX)=C^2 D(X)，C为常数

4. D(X+Y)=D(X)+D(Y)+2Cov(X, Y)

5. D(X+Y)=D(X)+D(Y)，当X和Y相互独立时

Cov(X, Y)=E{[X-E(X)][Y-E(Y)} : 协方差

标准差

（1）度量效果与方差一致

（2）方差的量纲和随机变量不一致

协方差

用于衡量两个变量的总体误差

协方差为正：两个变量的变化趋势相同，当一个大于其期望值时，另一个也大于，小于的情况亦然

协方差为负：两个变量的变化趋势相反，当一个大于其期望值时，另一个就小于，反之亦然

协方差为0：两个变量无线性相关性

两个变量独立，则协方差一定为0，但反之并不一定成立

公式

二项分布

定义

在同样的条件下，重复n次独立的随机试验，在每次试验中只有两种可能的结果（事件发生或不发生），而且两种结果发生与否互相对立，且两种结果发生的概率在每一次独立试验中都保持不变，则这一系列的试验称为服从二项分布。

ξ 表示随机试验的结果（事件发生的次数），p代表事件发生的概率，在N次独立重复试验中发生K次的概率是：

期望：Eξ=np
方差：Dξ=np(1-p)

大数定理：即便某一事件发生的概率极小，但重复次数足够多的话，它发生的概率会趋向于1

高斯分布

定义

荣号：上帝的分布
生活中无处不在
- 人群的身高分布
- 学生成绩的分布
- 社会财富的分层
- ·······
在分布未知的情况下，用高斯分布去拟合
X~N(μ,σ^2 )，概率密度函数为：

标准正态分布

当μ=0，σ=1时，

一般将正态变量转化为标准正态分布来研究处理

X在某值处的概率值为标准正态曲线从 -∞ 到 X 围成的面积占总面积的比例

中心极限定理

为什么正态分布会如此多见？靠山：中心极限定理

内容：大量相互独立的随机变量的均值经标准化后收敛于正态分布
操作：每次从总体中随机抽取n个样本，一共抽m次，对这m组样本分别求均值，则这些均值的分布接近正态分布
数学描述：

中心极限定理的威力：总体本身的分布无需是正态分布，只需同分布即可

泊松分布

场景

某个十字路口不同时刻的车流量
放射性元素的放射强度随时间变化的情况
不同时段餐厅的用餐人数
······

定义

泊松分布：（描述单位时间内随机事件发生某一次数k的概率）

其中，参数λ为单位时间段（或单位面积）内随机事件的平均发生次数对于泊松分布而言，其期望值和方差均为λ

前提条件

泊松分布有效的前提条件：

若某一随机事件在一段时间或某个空间内发生的期望为λ，则将此段时间（空间）等分成n份，使得在这每一小份中，至多让随机事件发生一次，或者不发生；且在这一小份中，时间发生的概率为λ/n，不发生的概率为1-λ/n；
任意两个等份是否发生该事件是相互独立的

在这一段时间内，此事件发生k次的概率为：

贝叶斯统计

贝叶斯公式

贝叶斯公式：由条件概率可得：

按照贝叶斯的语言：

X：样本（可被观测到的）
Y：产生样本的内在机制参数
P( Y│X )：后验概率(posterior)
P(X)：证据(evidence)
P( X│Y )：似然估计(likelihood)
P(Y)：先验概率(prior)

总结

频率派只关注X（观测到的样本）
贝叶斯派认为除了X之外，还应对样本产生的机制参数预估一个先验分布，甚至可以从主观的角度预估，比如：去猜测一本书的价格，人会在心里预估出一个价格范围，例如不会超过一千美金
贝叶斯派做分析必须用到参数先验分布，哪怕主观意识去预估
先验分布（ P(Y) ）是在抽样之前对参数的预估，而在获得样本之后，人们对于参数的判断会根据样本发生变化，便得到了参数的后验分布（ P( Y│X ) ）
通过贝叶斯公式可以求得后验分布