「小七,秋招进展得怎么样?」Allen 问道。
「嗯...... 一言难尽,感觉笔试面试都是在为难我胖虎。」小七回复。
秋招的竞争一年比一年激烈,尤其是算法和数据分析岗位,公司的笔试和面试题也涉及大量知识点,从微积分,线性代数,概率论,信息论到深度学习,基础算法编程题。考题也十分多样化,难以预测。小七直到现在仍旧没有拿到任何一家公司的 Offer。
「我之前找工作时候做过一些知识点总结,你想要吗?」
「当然想!」
「那就先从概率论开始说起吧。」
概率论与数理统计作为算法/数据分析岗位必备的数学基础知识,几乎是各大场笔试 / 面试的必考范围。本系列文章将系统总结这方面的例题和常考知识点。
贝叶斯定理的内容十分简单:
对于随机事件 和 ,若 ,有:
{:align=center}
为先验概率,这个公式可以理解为是在计算:当 条件已知时,原本的先验概率 会发生什么样的变化。
贝叶斯定理的考题通常比较固定,下面是今年(2019 年)
拼多多 学霸批数据分析笔试题,也是一道典型的贝叶斯定理考题:
已知 , 厂生产的产品的次品率分别是 和 ,现在由 , 产品分别占 、 的样品中随机抽一件,若取到的是次品,求此次品是 厂生产的概率。
求解这类问题时,先把已知条件和要求的结果用数学形式表达出来:
根据题目可已知
P(A) = 0.6
P(B) = 0.4
P(C|A) = 0.01
P(C|B) = 0.02
where A = 来自 A 厂,B = 来自 B 厂, C = 是次品,NC = 不是次品
求 P(B|C)之后将需要求解的条件概率 用贝叶斯公式展开:
求 ,根据贝叶斯公式展开,
最后将已知条件带入求解,在求底数(这里是 )时通常会使用全概率公式展开:
其中
P(C|B)P(B) = 0.02*0.4 = 0.008
P(C) = P(BC) + P(AC) = P(C|B)P(B) +P(C|A)P(A) = 0.02*0.4 + 0.01*0.6 = 0.014
所以
P(B|C) = 0.008 / 0.014 = 57.14%n 重伯努利实验,以得到 1 的次数为随机变量,该随机变量服从二项分布。在二项分布中,每次独立重复实验的结果只能为两个(即为伯努利试验),多项分布是二项分布的推广,每次独立重复实验的结果可以为 m 个。
二项分布(多项分布)在笔试中常考,但是要和超几何分布的问题区分清楚。在二项分布(多项分布)中,每次实验必须是相互独立的,对应在题目中:
袋中有 a 个白球,b 个黑球,从中任取一个球,看球的颜色是白色还是黑白,然后放回袋中。反复进行 n 次,因为每次放回,实验独立,因此对应的随机变量服从二项分布。
如果每次任取之后不放回,则服从超几何分布。
另外,服从二项分布(多项分布)还需要每次实验的结果互斥,且概率和为 1。一般情况下,题目中都会暗含这些条件。
下面看一道二项分布的经典笔试题。
在一个不透明的箱子里面均匀的分布着相同的6颗色红球和3颗篮色球,求有放回的随机的抽两次球,一个蓝色球和一个红色球的概率?
首先每次取出的球的颜色只能为两种情况:红色或蓝色。即单次实验为伯努利实验,且题目中提示为有放回抽取,实验相互独立。因此服从二项分布。
二项分布的公式如下:
其中随机变量 得到 “是” 的次数
{:align=center}
这道题的求解过程如下:
根据题目可知:
p(红) = 6/9 = 2/3
p(蓝) = 3/9 = 1/3
要求 P(1次红1次蓝),设随机变量 X = 得到红球的次数
即求 P(X=1)
带入公式可得 P(X=1) = C(2, 1)*(2/3)*(1/3) = 4/9二项分布的公式可以这样理解:一红一蓝同时发生,即 ,另外有先抽出红球在抽出蓝球和弦抽出蓝球再抽出红球两种情况,不妨理解为从两个位置里选一个位置放红球,即 。
再来看一个多项分布的例子:
公司年会举办抽奖活动:不透明的抽奖箱里面有红、橙、黄、绿、青、蓝、紫七个颜色不同的小球,假设每次只能随机摸出一个小球,摸出后再放回重新摸,练习簿摸出两个颜色相同的小球即视为中奖,那么员工的中奖概率是多少?
摸出后再放回表示每次事件独立。一次事件可能发生的情况为 7 种,连续进行两次实验,为多项分布。
多项分布的公式如下: