「04」机器学习、深度学习需要哪些数学知识？

图灵的猫 2020-01-09 我要评论

入门避坑指南

自学三年，基本无人带路，转专业的我自然是难上加难，踩过无数坑，走过很多弯路。这里我整理了一下自己踩过的坑，供大家参考。

1. 不要从头开始学数学如果不是一点数学都不会，你没有必要从零学起。用上个把月，把微积分、线性代数、以及概率统计复习一遍就够了。我自己因为没有学过高数，所以花了半年时间，甚至读了数学分析、泛函分析和测度论这样的教材。现在回想起来，其实学到的大部分知识并没有在后来的算法生涯中用到，虽然算不上沉没成本，但投入产出比绝对不高。

因此，不要过度投入到数学领域，打好基础即可。有个例子说的很好，如果你想造汽车，你需要有20年的理论功底，以及技术实践。但如果你只是想开汽车，却很快就能学会。当个司机，你需要去了解汽油发动机原理吗？不需要。因为你开的车，甚至有可能根本就用不上汽油发动机（电动车）。

2. 代码能力要过关

我在大三一年自修完了计算机系的所有必修课，因为我深知数据科学离不开计算机底层知识。我见过不少只会背推导公式，连JVM虚拟机是什么都不知道的人。除了Python，请至少学习1-2门底层语言，比如C/C++，Java。

此外，如果你的目标是算法工程师，那么数据结构与算法、计算机系统、内存机制、网络编程、大数据框架也要着手学习，因为你是以企业工作为导向的。这方面我有空会把自己读研时找实习的经历整理分享出来。

3. 不要过分深入

深度学习，底层结构很复杂，理论知识读懂即可，书也可以跳着看。除了自己感兴趣的部分，其他不需要深入。

4. 不要重复造轮子

不管是你是做科研还是搞业务算法，在开始入门的时候，认认真真自己实现一遍基础算法的底层代码就足够了，对于更多复杂的算法实现，如非必要（比如打比赛），否则请不要浪费时间，要记住，你只是入门，不需要专精这个领域。

我曾经读过hadoop的ML包源码，以及xgboost的C++源码，对当时还在入门的我来说，是做无用功。轮子还没修好，就照着别人的高铁学习结构，效率不会太高。现如今，对于大多数深度模型调用，代码量基本不过百行。除非你的方向是大规模、高可用深度学习系统的底层开发、架构开发，那么没有必要深入底层代码。

5. 不要报培训班

这一点仁者见仁。但我认为，网络上的公开课足够你学的了，比如Coursera，斯坦福CS231，可汗学院等等，这些现在都有中文字幕。相关资源我整理放在文末了，大家可以取用。要强调的是，有的同学会觉得花了钱，自然就会心疼，就会坚持学下去。这个想法很好，但太天真，有两点

国内的教学体系才刚起步，很多985高校都是和计算机、数学系一起上课，老师自己很可能都不是研究AI出身的。所以，请思考一下：校外的培训机构，会有比985还好的教学能力吗？
深度学习没有速成一说，虽然深度学习经常被诟病没有基础理论支撑，不需要数学知识，但那是说给大牛听的。你一旦深入某个方向，底层的数学照样少不了。培训班最不会教你的，就是这些。它们只会利用你的兴趣，揠苗助长，然后收割学费

我这么写可能有培训班的人来举报我（之前被举报过），但如今收割智商的培训班太多，连带着AI行业都被搞臭，所以我还是要说。

最后，我总结了深度学习、机器学习领域中所有会用到的数学知识，大家在制定计划时可以以这些知识点为脉络进行学习，如无必要，不要投入太多时间去学习这些以外的知识

微积分

微积分是现代数学的基础，线性代数，矩阵论，概率论，信息论，最优化方法等数学课程都需要用到微积分的知识。单就机器学习和深度学习来说，更多用到的是微分。积分基本上只在概率论中被使用，概率密度函数，分布函数等概念和计算都要借助于积分来定义或计算。几乎所有学习算法在训练或者预测时都是求解最优化问题，因此需要依赖于微积分来求解函数的极值，而模型中某些函数的选取，也有数学性质上的考量。对于机器学习而言，微积分的主要作用是： 1.求解函数的极值 2.分析函数的性质下面列出机器学习和深度学习中所需的微积分知识点，显然，不是课本里所讲的所有内容都是需要的，我们只列出所必须的。

极限：极限是高等数学和初等数学的分水岭，也是微积分这座大厦的基石，是导数、微分、积分等概念的基础。虽然在机器学习里不直接用到极限的知识，但要理解导数和积分，它是必须的。
上确界与下确界：这一对概念对工科的微积分来说是陌生的，但在机器学习中会经常用到，不要看到论文或书里的sup和inf不知道什么意思。
导数：其重要性众所周知，求函数的极值需要它，分析函数的性质需要它。典型的如梯度下降法的推导，logistic函数导数的计算。熟练地计算函数的导数是基本功。
Lipschitz连续性：这一概念在工科教材中同样没有提及，但对分析算法的性质却很有用，在GAN，深度学习算法的稳定性、泛化性能分析中都有用武之地。
导数与函数的单调性：某些算法的推导，如神经网络的激活函数，AdaBoost算法，都需要研究函数的单调性。
导数与函数的极值：这个在机器学习中处于中心地位，大部分优化问题都是连续优化问题，因此可以通过求导数为0的点而求函数的极值，以实现最小化损失函数，最大化似然函数等目标。
导数与函数的凹凸性：在凸化，Jensen不等式的证明中都有它的应用。
泰勒公式：又一个核心知识点。在优化算法中广泛使用，从梯度下降法，牛顿法，拟牛顿法，到AdaBoost算法，梯度提升算法，XGBoost的推导都离不开它。
不定积分：积分在机器学习中使用的相对较少，主要用于概率的计算中，它是定积分的基础。
定积分：包括广义积分，被用于概率论的计算中。机器学习中很大一类算法是概率型算法，如贝叶斯分类器，概率图模型，变分推断等。这些地方都涉及到对概率密度函数进行积分。
变上限积分。分布函数是典型的变上线积分函数，同样主要用于概率计算中。
牛顿-莱布尼兹公式。在机器学习中很少直接使用，但它是微积分中最重要的公式之一，为定积分的计算提供了依据。
常微分方程。在某些论文中会使用，但一般算法用不到。
偏导数。重要性不用多说，机器学习里绝大部分函数都是多元函数，要求其极值，偏导数是绕不开的。
梯度。决定了多元函数的单调性和极值，梯度下降法的推导离不开它。几乎所有连续优化算法都需要计算函数的梯度值，且以寻找梯度为0的点作为目标。
高阶偏导数。确定函数的极值离不开它，光有梯度值还无法确定函数的极值。
链式法则。同样使用广泛，各种神经网络的反向传播算法都依赖于链式法则。
Hessian矩阵。决定了函数的极值和凹凸性，对使用工科教材的同学可能是陌生的。
多元函数的极值判别法则。虽然不直接使用，但对理解最优化方法至关重要。
多元函数的凹凸性判别法则。证明一个问题是凸优化问题是离不开它的。
Jacobian矩阵。工科教材一般没有介绍这一概念，但和Hessian矩阵一样，并不难理解，使用它可以简化多元复合函数的求导公式，在反向传播算法中广泛使用。
向量与矩阵求导。常见的一次函数，二次函数的梯度，Hessian矩阵的计算公式要烂熟于心，推导并不复杂。
泰勒公式。理解梯度下降法，牛顿法的优化算法的基石。
多重积分。主要用于概率论中，计算随机向量的积分，如正态分布。

线性代数与矩阵论

相对于微积分，线性代数似乎用的更多，而且有一部分属于矩阵论/矩阵分析的范畴，超出了工科线性代数教材的范围。下面列出线性代数和矩阵论的常用知识点。

向量及其运算：机器学习算法的输入很多时候是向量，如样本的特征向量。因此熟练掌握向量以及常用的运算是理解机器学习的基础。
矩阵及其运算：与向量一样，是线性代数的核心概念，各种运算，常用矩阵，必须烂熟于心。
行列式：直接使用的少，在概率论，某些模型的推导中偶尔使用。
线性方程组：直接使用的少，但这是线性代数的核心内容。
特征值与特征向量：在机器学习中被广泛使用，很多问题最后归结于求解矩阵的特征值和特征向量。如流形学习，谱聚类，线性判别分析，主成分分析等。
广义特征值：工科线性代数教材一般不提及此概念，但在流形学习，谱聚类等算法中经常用到它。
Rayleigh商：工科教材一般不提及它。在某些算法的推导过程中会用到，如线性判别分析。
矩阵的谱范数与条件数：工科教材一般不提及它。在某些算法的分析中会用到它，它刻画了矩阵的重要性质。
二次型：很多目标函数是二次函数，因此二次型的地位不言而喻。
Cholesky分解：某些算法的推导中会用到它，工科教材一般不提及它。
特征值分解：对机器学习非常重要，很多问题最后归结于特征值分解，如主成分分析，线性判别分析等。
奇异值分解：在机器学习中广泛使用，从正态贝叶斯分类器，到主题模型等，都有它的影子。

概率论与信息论

概率论与信息论在机器学习中用得非常多。概率论的知识，一般不超出工科教材的范畴。而信息论是很多同学没有学过的，不过只要你理解了微积分和概率论，理解这些概念并不是难事。下面列出常用的概率论与信息论知识点。

随机事件与概率：这是理解随机变量的基础，也是概率论中最基本的知识。
条件概率与独立性：条件概率非常重要，在机器学习中，只要有概率模型的地方，通常离不开它。独立性在很多地方也被使用，如概率论图模型。
条件独立：在概率论图模型中广泛使用，一定要理解它。
全概率公式：基础公式，地位不用多说。
贝叶斯公式：在机器学习的概率型算法中处于灵魂地位，几乎所有生成模型都要用到它。
离散型随机变量与连续型随机变量：重要性不用多说，概率质量函数，概率密度函数，分布函数，一定要熟练掌握。
数学期望：非常重要，好多地方都有它的影子。
方差与标准差：非常重要，刻画概率分布的重要指标。
Jensen不等式：在很多推导和证明中都要用它，如EM算法，变分推断。
常用概率分布：包括均匀分布，正态分布，伯努利分布，二项分布，多项分布，t分布等，在各种机器学习算法中广泛使用。
随机向量：多元的随机变量，在实际中更有用。
协方差：经常使用的一个概念，如主成分分析，多元正态分布中。
参数估计：包括最大似然估计，最大后验概率估计，贝叶斯估计，核密度估计，一定要弄清楚它们是怎么回事。
随机算法：包括采样算法，遗传算法，蒙特卡洛算法，在机器学习中也经常使用。
信息论中的一些概念，包括熵，交叉熵，KL散度，JS散度，互信息，信息增益，一定要深刻理解这些概念。如果你不理解KL散度，那怎么理解变分推断和VAE？

最优化方法

前面已经说过，最优化方法是机器学习的灵魂，用于确定模型的参数或预测结果。不幸的是，工科专业一般没有学过这门课。不过只要你理解了微积分和线性代数，并不难推导出这些算法。下面列出常用的最优化方法知识点：

梯度下降法：最简单的优化算法，但却很有用，尤其在深度学习中。
随机梯度下降法：在深度学习中的重要性妇孺皆知。
最速下降法：梯度下降法的改进型，是理解梯度提升等算法的基础。
梯度下降法的改进型：如AdaGrad，AdaDelta，Adam等，使用深度学习开源库的时候经常会看到这些名字。
牛顿法：二阶优化算法的典型代表，只是在深度学习中用的少。在logistic回归等算法的训练中会用到它。
拟牛顿法：牛顿法的改进，在条件随机场等模型的训练中会用到L-BFGS等算法。
坐标下降法：在logistic回归等模型的训练中会用到它，不难理解。
凸优化：最优化中的核心概念之一，如果一个问题被证明为凸优化问题，恭喜你，它基本上可以较好的解决。
拉格朗日乘数法：在各种算分的推导中经常使用，如主成分分析，线性判别分析等，如果不熟练掌握它，你将非常艰难。
KKT条件：拉格朗日乘数法扩展到带不等式约束后的版本，在SVM的推导中将会使用。
拉格朗日对偶：不太好理解的知识点，在SVM的推导中经常用到，不过套公式并不难。
多目标优化：一般很少使用，在多目标NAS中会使用它，如帕累托最优等概念。
变分法：用于求解泛函的极值，在某些理论推导中会用到它，如通过变分法可以证明在均值和方差一定的情况下，正态分布的熵最大。

图论

机器学习中的某些问题可以用图论的方法解决，如流形学习，谱聚类。某些算法的表达也可能用到图论的知识，如深度学习中的计算图，NAS中的网络拓扑结构图。概率图模型让很多初学者谈虎色变，它是图论与概率论的完美结合。下面介绍常用的图论知识点。图的基本概念：如顶点，边，有向图，无向图等。

邻接矩阵与加权度矩阵：图论中的核心概念，边一般都带有权重的。

某些特殊的图：如二部图，有向无环图等，在深度学习中经常会用到他们。

最短路径问题：经典的Dijkstra算法是每个程序员必须掌握的。

拉普拉斯矩阵和归一化拉普拉斯矩阵：比较难理解的概念，机器学习中的很多算法，如流形学习，使用图论的半监督学习，谱聚类都离不开它。理解这个矩阵和它的性质，是理解这些算法的基础。

最后附上自己整理的入门书单和课程，里面小蓝书、花书一类的我没放进去，因为我认为并不适合入门。这里我列的课程和书目都是非常beginner-friendly，适合新手读。其中有些书是几年前我看过的，而有些书是19年才写的，非常接近目前业界的深度学习应用，个人推荐看新书。（不知为何，新书的评分通常更高）

数学课程

麻省理工公开课：线性代数_全35集_网易公开课
可汗学院-线性代数入门
线性代数应该这样学 (豆瓣),
高等微積分 - 臺大開放式課程 (NTU OpenCourseWare)。
概率论与数理统计 (豆瓣)

算法课程

Coursera-机器学习-Andrew Ng
BiliBili-机器学习基石-林轩田
CS231n: Convolutional Neural Networks for Visual Recognition
Deep Learning Tutorial from Stanford -Stanford计算机系官方tutorial，Andrew Ng执笔
An Introduction to Statistical Learning with Applications in R 强烈推荐看Simple版
Python深度学习豆瓣评分9.6，深度学习类目下排名第一
动手学深度学习豆瓣评分9.3，李沐老师写的
深度学习入门豆瓣评分9.4，斋藤康毅大神写的

论文

The Learning Machines - 一个导论性质的文章，让你大致了解深度学习是什么，用来干什么的。
Deep Learning - (Review Article in Nature, May 2015) 三大神 Yann LeCun, Yoshua Bengio, and Geoffrey Hinton的文章，不解释。
Growing Pains in Deep Learning
Deep Learning in Neural Networks - This technical report provides an overview of deep learning and related techniques with a special focus on developments in recent years. 主要看点是深度学习近两年（2012-2014）的进展情况。

深度学习代码库