上QQ阅读APP看书,第一时间看更新
2.3.1 三倍标准差法
前面我们介绍过,正态分布的函数图像关于平均值x=μ对称,且平均值与它的众数及中位数是同一个数,如图2-3所示。
如图2-3所示,正态分布函数曲线有以下几个特点:
·68.2%的面积在平均数左右一个标准差(1σ)范围内;
·95.4%的面积在平均数左右两个标准差(2σ)的范围内;
·99.7%的面积在平均数左右三个标准差(3σ)的范围内。
图2-3 正态分布函数图像
如果数据服从正态分布,那么当样本数据绝对值大于3倍标准差时,可以基本认定该样本为一个异常数据,这也是我们在判断广告数据异常值中应用的有效手段之一。