2020 年算法 / 数据分析面试数学考点梳理(1)
6717
2019.08.29
2019.08.29
发布于 未知归属地

「小七,秋招进展得怎么样?」Allen 问道。

「嗯...... 一言难尽,感觉笔试面试都是在为难我胖虎。」小七回复。

秋招的竞争一年比一年激烈,尤其是算法和数据分析岗位,公司的笔试和面试题也涉及大量知识点,从微积分,线性代数,概率论,信息论到深度学习,基础算法编程题。考题也十分多样化,难以预测。小七直到现在仍旧没有拿到任何一家公司的 Offer。

「我之前找工作时候做过一些知识点总结,你想要吗?」

「当然想!」

「那就先从概率论开始说起吧。」

概率论与数理统计作为算法/数据分析岗位必备的数学基础知识,几乎是各大场笔试 / 面试的必考范围。本系列文章将系统总结这方面的例题和常考知识点。


贝叶斯定理

贝叶斯定理的内容十分简单:

对于随机事件 ,若 ,有:
{:align=center}

为先验概率,这个公式可以理解为是在计算:当 条件已知时,原本的先验概率 会发生什么样的变化。

贝叶斯定理的考题通常比较固定,下面是今年(2019 年) 拼多多 学霸批数据分析笔试题,也是一道典型的贝叶斯定理考题:

已知 厂生产的产品的次品率分别是 ,现在由 产品分别占 的样品中随机抽一件,若取到的是次品,求此次品是 厂生产的概率。

求解这类问题时,先把已知条件和要求的结果用数学形式表达出来:

根据题目可已知
P(A) = 0.6
P(B) = 0.4
P(C|A) = 0.01
P(C|B) = 0.02
where A = 来自 A 厂,B = 来自 B, C = 是次品,NC = 不是次品
P(B|C)

之后将需要求解的条件概率 用贝叶斯公式展开:

,根据贝叶斯公式展开,

最后将已知条件带入求解,在求底数(这里是 )时通常会使用全概率公式展开:

其中 
P(C|B)P(B) = 0.02*0.4 = 0.008
P(C) = P(BC) + P(AC) = P(C|B)P(B) +P(C|A)P(A) = 0.02*0.4 + 0.01*0.6 = 0.014
所以
P(B|C) = 0.008 / 0.014 = 57.14%

二项分布和多项分布

n 重伯努利实验,以得到 1 的次数为随机变量,该随机变量服从二项分布。在二项分布中,每次独立重复实验的结果只能为两个(即为伯努利试验),多项分布是二项分布的推广,每次独立重复实验的结果可以为 m 个。

二项分布(多项分布)在笔试中常考,但是要和超几何分布的问题区分清楚。在二项分布(多项分布)中,每次实验必须是相互独立的,对应在题目中:

袋中有 a 个白球,b 个黑球,从中任取一个球,看球的颜色是白色还是黑白,然后放回袋中。反复进行 n 次,因为每次放回,实验独立,因此对应的随机变量服从二项分布。

如果每次任取之后不放回,则服从超几何分布。

另外,服从二项分布(多项分布)还需要每次实验的结果互斥,且概率和为 1。一般情况下,题目中都会暗含这些条件。

下面看一道二项分布的经典笔试题。

在一个不透明的箱子里面均匀的分布着相同的6颗色红球和3颗篮色球,求有放回的随机的抽两次球,一个蓝色球和一个红色球的概率?

首先每次取出的球的颜色只能为两种情况:红色或蓝色。即单次实验为伯努利实验,且题目中提示为有放回抽取,实验相互独立。因此服从二项分布。

二项分布的公式如下:

其中随机变量 得到 “是” 的次数
{:align=center}

这道题的求解过程如下:

根据题目可知:
p(红) = 6/9 = 2/3
p(蓝) = 3/9 = 1/3
要求 P(1次红1次蓝),设随机变量 X = 得到红球的次数
即求 P(X=1)
带入公式可得 P(X=1) = C(2, 1)*(2/3)*(1/3) = 4/9

二项分布的公式可以这样理解:一红一蓝同时发生,即 ,另外有先抽出红球在抽出蓝球和弦抽出蓝球再抽出红球两种情况,不妨理解为从两个位置里选一个位置放红球,即

再来看一个多项分布的例子:

公司年会举办抽奖活动:不透明的抽奖箱里面有红、橙、黄、绿、青、蓝、紫七个颜色不同的小球,假设每次只能随机摸出一个小球,摸出后再放回重新摸,练习簿摸出两个颜色相同的小球即视为中奖,那么员工的中奖概率是多少?

摸出后再放回表示每次事件独立。一次事件可能发生的情况为 7 种,连续进行两次实验,为多项分布。

多项分布的公式如下:

P(X_{1} = x_{1}, ..., X_{k} = x_{k}) = \frac{n!}{x_{1}!...x_{k}!}p_{1}^{x_{1}}...p_{k}^{x_{k}}$$ 其中随机变量 $X_{i} =$ 第 $i$ 中情况出现的次数 {:align=center} 这道题求解过程如下: ``` 已知 7 种情况,每种情况发生的概率都为 1/7 P(两个颜色相同的小球) = P(两红) + ... + P(两紫) 根据题目,P(两红) = ... = P(两紫) 所以,P(两个颜色相同的小球) = 7*P(两红) 带入多项分布公式 P(两红) = P(X1 = 2, ..., Xk = 0) = (2!/2!0!...0!)(1/7)^2 = 1/49 P(两个颜色相同的小球) = 7*(1/49) = 1/7 ``` 多项分布公式的理解和二项分布非常相似,即一种特定顺序的情况发生的概率乘以可能的顺序数。 下面这道题相对更加复杂。 >袋中有 8 个红球,3 个黄球,9 个白球。有放回的选取 6 个。其中 2 个红球,1 个黄球,3 个白球的概率是多少? 求解过程如下: ``` 由题意可知: P(红) = 8/20 P(黄) = 3/20 P(白) = 9/20 一种特定顺序的情况发生的概率为: P(红)^2*P(黄)^1*P(白)^3 = (8/20)^2 * (3/20)^1 * (9/20)^3 可能的顺序共有: 6!/(2!*1!*3!) 两项相乘即为最终结果,且符合多项分布的公式 最终结果为 0.13122 ``` --- 本文介绍了概率论与数理统计中,贝叶斯定理、二项分布、多项分布的知识点和例题,对于多项分布而言,每次抽取都是有放回的。然而在笔试题中,经常会遇到无放回的情况(比如一次抽取多个工厂车间零件),这类问题如何求解呢? 在下一节中,我们将详细总结概率论中其他笔试面试常考的 **离散分布**,和典型的 **连续分布**。 概率论的常考内容中,除了经典的离散分布,连续分布以及相关性质,还包括了 **数学期望**、**方差** 等基本概念; 统计学中, **参数估计** 和 **假设检验** 经常容易出现。参数估计中,对点估计和区间估计的理解,MLE 和 MAP 的区别;假设检验中 t-test,f-test,p value 等都是常考点。 另外,由于概率论与数理统计和机器学习算法之间的密切关系,二者也经常被一起问到。面试算法 / 数据分析岗位的小伙伴们赶紧准备起来吧! <br> 本文作者:宫业奇
评论 (1)