L02-人工智能中的数学基础
数学分析
映射与函数

极限与连续


导数
导数是曲线的斜率,是曲线变化快慢的反应;
可导一定连续,反之不然

思考:极值如何求解?
- 常用函数求导公式

sigmoid 函数—模拟神经元


- 左边:未激活
- 右边:激活
- 导数:f’(x) = f(x) * [ 1-f(x) ]
泰勒展开
- 泰勒展开式

- 常用函数的泰勒展开

在某邻域内,存在一阶近似、二阶近似、….
逼近非线性函数求解
梯度下降

练习:使用梯度下降法求解y=x2
思考:什么情况下有全局最优解?
- 练习



- 梯度下降法:

“最快”过于盲目、有缺陷,进一步利用曲线二阶导的信息进行迭代求解,称为牛顿法



多元函数
多元函数的导数如何表达?
多元函数的梯度呢?
多元函数的二阶导是什么?

- hessian矩阵G


小彩蛋
Yan LeCun:可微分式编程

线性代数
线性变换
线性变换:指旋转、推移,他们的组合是线性变换

矩阵
- 本质:线性变化
拉伸推移



- 仅对角线有非零值的矩阵为缩放矩阵,对角线元素代表了每个维度的缩放强度
旋转


- 列向量正交且为单位向量的矩阵,也即正交阵为旋转矩阵
分离技术
特征值分解

- 非常重要且广泛的应用
- 控制系统
- 推荐系统
- 文本相似度处理
- 图像压缩
- ······
svd/NFM分解


相似矩阵

行列式


- 行列式的本质:线性变换的缩放因子
总结
- 矩阵 <==> 线性变换
- 特征值 <==> 缩放强度
- 行列式 <==> 缩放强度
概率论
概率与直观
不断抛掷一枚硬币,得到正面与反面的频率比例是多少呢?经过无数次抛掷,频率的极限趋近于X?

抛掷趋于无穷次时,正反面频率一致(大数定理)
简单计算

- 已知A、B独立时

- 条件概率

- 全概率公式

- 贝叶斯公式

练习:小明有8支步枪,其中有5支校准过。校准过的枪支击准靶心的概率为0.8,没有校准过的枪支击准靶心的概率为0.3,现小明随机的选一支枪,结果中靶,问该枪已被校准的概率。

重温贝叶斯公式:

强调:这是一个非常重要的公式,记住它,基本就掌握了机器学习一半的内容
期望与方差

E(x) 表征了数据的加权平均值,D(x) 表征了数据的波动程度
变量的分布
伯努利分布
有一类试验,比如抛掷硬币得到正面还是反面,项目成功或失败,产品是否有缺陷,只有两个可能结果。记这两个可能的结果为0和1,该分布就称为伯努利分布。


二项分布
伯努利分布重复N次,就构成了二项分布。

高斯分布
高斯分布,服从中心极限定律,是非常重要的分布。

- 练习:multi_guassian.py


熵
信息量。

例:世界杯比赛有32支球队参加,最少用多少bit信息表示出最后获胜的队伍?
答:5