什么是泊松分布?
当一个事件的发生满足以下条件时,可以认为这个事件在某一固定时间段内的发生次数满足柏松分布。
事件是独立发生的
事件发生的概率在给定的固定时间内不随时间变化
总结起来就是,事件的发生是随机且独立的。
泊松分布的概率质量函数:
x表示一段时间内事件发生的次数,λ表示一段时间内事件发生的平均次数。
举个例子:
假设某媒体平台一天的用户广告转化数平均为1次,每天的广告转化数就满足泊松分布。
那么根据泊松分布,我们想知道该媒体平台每周广告转化数为10次的概率,应该怎么算?
首先,固定时间由一天增加到一周,一周的平均点击则为7次,泊松分布的λ为7,要求转化数为10次的概率,泊松分布的概率质量函数的输入x为10,代入公式可以求出:
可以得出该媒体每周广告的转化数为10次的概率为0.070983。
根据上例,将时间考虑进泊松分布的概率质量函数,可以得到:
x表示单位时间内事件发生的次数,λ表示单位时间内事件发生的平均次数,t表示t个单位时间,N(t)表示关于时间的某种函数。
泊松分布与二项分布的关系
回顾二项分布的概率质量函数:
我们依然拿上面举的例子来探索泊松分布与二项分布的关系。
假设某媒体平台一天的用户广告转化数平均为1次,一天广告点击的次数平均为1000次,那么广告的点击转化率为0.1%,我们现在根据二项分布来计算,该媒体平台每周广告转化数为10次的概率。
首先,时间范围是一周,那么一周的广告的平均点击数为7000次,广告的点击转化率依然是0.1%不会随时间变化而改变,那么将n为7000,x为10,p为0.1%代入二项分布的概率质量函数求出:
可以看出该媒体每周广告的转化数为10次的概率为0.070988。对比上面利用泊松分布的公式计算的值,发现二者值非常的接近,这是一种巧合还是一种必然?下面我们从二项分布的概率质量函数着手,由于二项分布中λ=np,将p=λ/n代入看看能有什么发现。
当n趋近于正无穷时,
惊奇的发现当n趋于正无穷时,二项分布的概率质量函数和泊松分布的概率质量函数相同。看来在例子中的结果非常接近不是巧合。所以我们可以利用泊松分布来估算二项分布。这样做的原因主要有两个:
- 简化计算
- 一个问题可以在概念上用二项分布去理解,但是二项分布的具体n和p未知,而是已知λ
泊松分布与指数分布的关系
指数分布针对两个事件发生的时间间隔,与泊松分布不同,泊松分布是离散型分布,指数分布是连续型分布。如果单位时间内事件的发生次数满足泊松分布,那么事件发生的时间间隔满足指数分布。指数分布的概率密度函数是:
概率分布函数则为:
λ表示单位时间内事件发生的平均次数,t表示t个单位时间。
可以从泊松分布来理解指数分布。对于泊松分布,t时间内事件发生次数为0的概率为:
t时间内事件发生次数为0的另外一种理解可以是,事件第一次发生的时间T要大于t。
即
那么事件在t时间内发生的概率为:
与指数分布的概率分布函数保持一致。
同一个例子,假设某媒体平台一天的用户广告转化数平均为1次,我们想知道该媒体平台在第2天到5天内完成一次转化的概率,就可以根据指数分布来计算。
首先,一天内的平均转化数为1,则λ为1。要在第2天与第5天之间完成一次转化,利用P(T<= 5) - P(T<= 2)来计算概率,得: