频数&频率

频数

​ 变量值中代表某特征的数的出现次数

频率

​ 频数与总数之比

频率派视角下的概率

定义

​ 做大量重复试验时,随着试验次数的增加,某一事件出现的频率,总在一个定值的附近稳定地摆动,便将此定值称为该事件的概率

  • 抛硬币挑边
  • 掷骰子猜大小
  • 抛铜钱鼓舞士气

布丰投针试验

​ 1、白纸上平行线间距:t

​ 2、针的长度:l(l<t)

​ 3、随机向纸上投针n次

​ 4、针相交与直线的次数记为m

  • 理论上

​ 用X, Y分别表示针的中点到最近的平行线的距离,Y表示针与平行线的夹角,则针与直线相交的的时候,必定有:

且X在(0,t/2)内服从均匀分布,Y在(0,π/2)内服从均匀分布XY相互独立

​ 则X,Y的概率密度函数为:

​ 所以,根据用频率估计概率的原则,只要进行大量投针试验,统计出频率,就可计算出π。

总结

  • 试验必须可以进行很多次(易于操作,成本低,周期短)
  • 缺乏一定的严谨性(如何确定“稳定”与否)
  • 无法对不可多次重复的事件进行预判(毒理学检测, etc)
  • 内在地觉得事件本身是随机的

贝叶斯派视角下的概率

频率派与贝叶斯派的掐架:

频率派:客观世界内在地存在随机性,这是自然规律

贝叶斯派:不,本身并没有客观的随机性,只是观察者没有上帝视角

频率派:我们要找出正确的概率模型参数,它是客观存在且唯一正确的

贝叶斯派:既然我们都没有上帝视角了,如何知道哪一个是正确的?

……

对于贝叶斯派而言,他们认为所谓的「随机」,只是由于人没有办法掌握全局信息。

比如,对于有内幕消息的人来说,股市的波动是确定的,对于普通散户而言,股市的波动是随机不确定的

所以,贝叶斯派将「概率」视为对某种结果出现的信任程度,而非频率

古典概型

  • 定义:若一个随机试验包含的基本事件的数量是有限的,且各个基本事件发生的可能性均相等,则此种概率模型称为古典概型。

  • 特征

    • 包含的基本事件数量有限
    • 所有基本事件发生的概率均相等
    • 任意两个基本事件之间是互斥的
  • 场景

    • 掷骰子,抛硬币,彩票抽奖,婴儿的出生日期
    • 选择题不会全靠蒙,so many……
  • 计算公式

​ m:A事件包含的基本事件个数,n:基本事件总数

几何概型

  • 定义:若每个事件发生的概率只与构成该事件区域的度量(长度,面积,体积或度数)成比例,则称这样的概率模型为几何概型。

  • 实质:将古典概型从有限到无限的扩展

  • 特征

    • 包含的基本事件数量无限
    • 所有基本事件发生的概率均相等
    • 任意两个基本事件之间是互斥的
  • 场景

    • 对于不规则形状面积的测量
    • 相遇问题

联合概率

  • 定义:两个或多个事件同时发生的概率

  • 符号表示:P(AB)或P(A,B)

  • 计算

    • 对于相互独立的事件, P(AB)=P(A)P(B)
    • 若并非相互独立的事件,P(AB)=P(A|B)P(B)

条件概率

  • 定义:事件B已发生的前提下,事件A发生的概率
  • 符号表示:P( A│B )

随机变量

  • 一次随机试验可能出现的结果的数量化表示
  • 一般用大写字母表示,如X, Y
  • 抛掷两个骰子得到的向上的点数之和就是一个随机变量
  • 连续型随机变量,如街访一个人,他/她的身高
  • 离散型随机变量,如街访一个人,他/她的性别

数学期望

​ 每种可能的结果乘上对应的概率再相加

  • 期望的性质

     1. E(C)=C,C为常数
     1. E(CX)=CE(X),C为常数
     1. E(X+Y)=E(X)+E(Y)
     1. E(XY)=E(X)E(Y),当X, Y相互独立时
     1. E(XY)需按照定义去计算,当X,Y不独立时
    

方差

​ 度量随机变量和其数学期望之间的偏离程度

  • 方差的性质

​ 1. D(C)=0,C为常数

​ 2. D(X+C)=D(X),C为常数

​ 3. D(CX)=C^2 D(X),C为常数

​ 4. D(X+Y)=D(X)+D(Y)+2Cov(X, Y)

​ 5. D(X+Y)=D(X)+D(Y),当X和Y相互独立时

​ Cov(X, Y)=E{[X-E(X)][Y-E(Y)} : 协方差

标准差

​ (1)度量效果与方差一致

​ (2)方差的量纲和随机变量不一致

协方差

​ 用于衡量两个变量的总体误差

协方差为正:两个变量的变化趋势相同,当一个大于其期望值时,另一个也大于,小于的情况亦然

协方差为负:两个变量的变化趋势相反,当一个大于其期望值时,另一个就小于,反之亦然

协方差为0:两个变量无线性相关性

两个变量独立,则协方差一定为0,但反之并不一定成立

  • 公式

二项分布

  • 定义

​ 在同样的条件下,重复n次独立的随机试验,在每次试验中只有两种可能的结果(事件发生或不发生),而且两种结果发生与否互相对立,且两种结果发生的概率在每一次独立试验中都保持不变,则这一系列的试验称为服从二项分布。

​ ξ 表示随机试验的结果(事件发生的次数),p代表事件发生的概率,在N次独立重复试验中发生K次的概率是:

  • 期望:Eξ=np
  • 方差:Dξ=np(1-p)

大数定理:即便某一事件发生的概率极小,但重复次数足够多的话,它发生的概率会趋向于1

高斯分布

定义

  • 荣号:上帝的分布

  • 生活中无处不在

    • 人群的身高分布
    • 学生成绩的分布
    • 社会财富的分层
    • ·······
  • 在分布未知的情况下,用高斯分布去拟合

  • X~N(μ,σ^2 ),概率密度函数为:

标准正态分布

​ 当μ=0,σ=1时,

  • 一般将正态变量转化为标准正态分布来研究处理

​ X在某值处的概率值为标准正态曲线从 -∞ 到 X 围成的面积占总面积的比例

中心极限定理

​ 为什么正态分布会如此多见?靠山:中心极限定理

  • 内容:大量相互独立的随机变量的均值经标准化后收敛于正态分布

  • 操作:每次从总体中随机抽取n个样本,一共抽m次,对这m组样本分别求均值,则这些均值的分布接近正态分布

  • 数学描述:

  • 中心极限定理的威力:总体本身的分布无需是正态分布,只需同分布即可

泊松分布

场景

  • 某个十字路口不同时刻的车流量
  • 放射性元素的放射强度随时间变化的情况
  • 不同时段餐厅的用餐人数
  • ······

定义

​ 泊松分布:(描述单位时间内随机事件发生某一次数k的概率)

其中,参数λ为单位时间段(或单位面积)内随机事件的平均发生次数对于泊松分布而言,其期望值和方差均为λ

前提条件

​ 泊松分布有效的前提条件:

  • 若某一随机事件在一段时间或某个空间内发生的期望为λ,则将此段时间(空间)等分成n份,使得在这每一小份中,至多让随机事件发生一次,或者不发生;且在这一小份中,时间发生的概率为λ/n,不发生的概率为1-λ/n;

  • 任意两个等份是否发生该事件是相互独立的

​ 在这一段时间内,此事件发生k次的概率为:

贝叶斯统计

贝叶斯公式

​ 贝叶斯公式:由条件概率可得:

按照贝叶斯的语言:

  • X:样本(可被观测到的)
  • Y:产生样本的内在机制参数
  • P( Y│X ):后验概率(posterior)
  • P(X):证据(evidence)
  • P( X│Y ):似然估计(likelihood)
  • P(Y): 先验概率(prior)

总结

  • 频率派只关注X(观测到的样本)

  • 贝叶斯派认为除了X之外,还应对样本产生的机制参数预估一个先验分布,甚至可以从主观的角度预估,比如:去猜测一本书的价格,人会在心里预估出一个价格范围,例如不会超过一千美金

  • 贝叶斯派做分析必须用到参数先验分布,哪怕主观意识去预估

  • 先验分布( P(Y) )是在抽样之前对参数的预估,而在获得样本之后,人们对于参数的判断会根据样本发生变化,便得到了参数的后验分布( P( Y│X ) )

  • 通过贝叶斯公式可以求得后验分布

机器学习分类指标

​ 设有正,负两种样本,模型对于样本的判断会有四种结果:

  • 精确率:代表预测为正的样本有多少是真的正样本
  • 召回率:代表正的样本有多少被预测正确(找出来)了
  • 准确率:代表模型对所有分类预测正确的比例