描述统计学入门:可变性

当两组数据的众数、均值、中位数均相同的时候,如何再比较这两组数据呢?

在《描述统计学入门》可变性中,你可以学习如何使用方差和标准差定量分析数据的分布,并学习如何使用箱线图和四分位距找出异常值。

可变性大纲
(点击图片查看原图)

相同的值,有什么不同?

这是有社交网络人员和没有社交网络人员的两组数据,你先看一下这两组数据的 众数均值中位数是否相等?

很明显,众数、均值、中位数全都相等。但这两组数据有什么区别吗?

这两个分布有什么区别?

  1. □ 有社交网络帐号的人的工资更一致
  2. □ 一般大众的工资更为一致
  3. □ 工资非常高的人没有社交网络帐号
  4. □ 工资非常低的人有社交网络帐号
  5. □ 一般大众的工资分布图更分散
点击展开答案

第1、5选项正确。

量化数据的分布形态

如果给出了这两组数据的最大值最小值,那么这两个分布的范围(最大值和最小值之间的差)分别是多少?范围是观察到的最大值和最小值之间的差。

第一组数据:$78,600 – $21,180 = $57,420

第二组数据:$116,020 – $7,350 = $108,670

这是一个用来衡量分布图有多分散的方法,值域很容易计算和理解。还提供了一个关于数据如何分散的概要信息。然而,正如我们以前看到的那样,方便是有代价的。

值域是否改变?

当我们向数据集中添加值时,值域是会怎样变化?

  • □ 总会改变
  • □ 有时会改变
  • □ 永远不会改变
点击展开答案

有时会改变。

假定我们将扎克伯格(薪资为1000万)包含进来,那么这个分布图的值域是多少?

点击展开答案

$10,000,000 – $21,180 = $9,978,820

砍掉尾巴

统计学家处理异常值的一种方法就是忽略分布中的上尾下尾,因此,我们将忽略掉扎克伯格,然后我们只需考虑中间的数据值。忽略尾部是什么意思?习惯上,统计学家会忽略较低的25%和较高的

四分位

将数据从小到大排列好之后,等分为4段,Q1表示25%处的值,Q2表示50%处的值(同时也是中位数),Q3表示75%处的值。

四分位距 IQR

在得出Q3减去Q1结果时,实际是在计算四分位距(差),英文 Interguartile Range,缩写为IQR。下面来看一看关于IQR的说法。

错误还是正确?

  • 几乎 50% 的数据在 IQR 间。
  • IQR 受到数据集中每一个值的影响。
  • IQR 不受异常值的影响。
点击展开答案

正确、错误、正确

异常值

那些是异常值?

异常数值究竟是什么?比如在这些数据中,你认为异常数值会在哪里?

这个数据集中哪些是异常值?

  • □ $ 60,000
  • □ $ 80,000
  • □ $ 100,000
  • □ $ 200,000
点击展开答案

或许这些值都不是异常值,因为可以看到这其实是极限数据值,如果它是数据集的组成部分,那么这些值或许不是异常数值。

定义异常值

如果一个值小于第一个四分位数减去1.5倍的IQR,或者大于Q3加上1.5倍的IQR,则这个数就被认定为异常数值。

Outlier < Q1 – 1.5 × (IQR)

Outlier > Q3 + 1.5 × (IQR)

上例中,你可以看到四分位的差是4,944,Q1是49,191,Q3是54,135,下来用统计学的方法确定哪些值被认为是异常数值。

你认为这个数据集中哪些是异常值?

  • □ $ 60,000
  • □ $ 80,000
  • □ $ 100,000
  • □ $ 120,000
点击展开答案

计算过程:

任何小于41,775的值都是异常值,任何大于61,551的值也都是异常值。所以,后三个选项都是异常值。

匹配对应的箱线图

我们用箱线图(也叫盒须图)来更直观地表示四分位数和异常数值,看上去就像下图一样,最上方的线(水平)表示最小值,第二条线(水平)表示Q1,第三条线(水平)表示Q2或中位数,第四条线(水平)表示Q3 ,最下方的线 (水平) 表示最大值。下方的点表示异常值。

根据这些信息,再来看一道题,你认为哪个箱线图符合这些分布图?(方框中填入 A、B、C)

点击展开答案

正确答案,从上往下,C、A、B。

均值在IQR中吗?

现在学习了可以用箱线图来直观地表示数据,特别是表示中位数、四分位差、最小值和最大值。记住min与max之间的距离是值域,也可以写成 (min, max)。

现在再看一个概念性的问题,平均值总是在Q1和Q3之间吗?

  • □ 是的
  • □ 不是
点击展开答案

肯定是不对的。对于左图,均值是在Q1与Q3之间,但是给一个特殊的数据组,例如右下角的 0, 1 ,1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 90,Q1=1,Q3=3,均值=8.62,均值明显不在Q1与Q3之间。

IQR的不足

你发现值域和IQR都无法将所有的数据考虑进来,完全不同的两个数据集也可以有相同的IQR,例如正态分布双峰分布均匀分布。因此,IQR并不能满足我们对数据集的信息提取需求。

请记住我们在计算平均值时是如何使用所有数据的,因为计算平均值时,我们对所有值求和,然后除以值的个数,所以这个过程使用了所有的数据值。如果我们在计算差异性时采用类似的方法,会出现什么情况呢?换句话说,我们需要一个数字,既能反映数据的分布,又可以将所有的数据考虑进来。

衡量差异性的方法

下列哪个是衡量差异性最好的选项?选择您最认为最好的选项。

  • □ 找出任意两个值之间差的平均值
  • □ 找出每个值与最大值或最小值之间差的平均值
  • □ 找出每个值与数据集均值之间差的平均值
点击展开答案

正确答案:找出每个值与数据集均值之间差的平均值。聪明的你应该知道下面我们该介绍什么了吧,有没有想起方差?标准差呢?

总之,我们来用个数据,一步一步印出来这个值。先计算下平均值吧~

平均值是 $52,793.80,这个就不多说了,小学知识。

离均差

离均差就是每个值减去平均值,注意离均差可能是负数。

注意:

标准差是离均差平方的算术平均数的平方根。

标准差是方差的算术平方根。

下面来计算一下每个数据的离均差,并计算平均偏差。

点击展开答案

平均偏差为0,离均差计算结果如下:

摆脱负值,开心起来

现在我们又遇到了问题,我们的平均值偏差为0,这显然无法很好地测量分布,这会让我们认为,如果我们再三得到相同的数据点,则其分布将为0,但是现在整条数轴上有许多数据点,这将导致某种程度的分布。因此,如果我们仍然得到值为0的平均偏差,则不能通过这种方式来测量分布。问题在于,负值将抵消正值,所以你觉得:

我们如何阻止负偏差和正偏差相互抵消?

  • □ 忽略负号
  • □ 将偏差乘2
  • □ 将偏差平方
  • □ 我们什么都做不了
点击展开答案

正确答案:忽略负号,或者将偏差平方。

绝对偏差

摆脱负值的第一个办法是用绝对偏差。顾名思义,将离均差取绝对值,变成非零值。

公式:

\(\frac {\sum \left| x_{i}-\overline {x}\right|}{n}\)

\( \sum \left( \frac {\left| x_{i}-\overline {x}\right| }{n}\right)  \)

\( \frac {\sum \left( \left| \overline {\chi }-x_{i}\right| \right) }{n} \)

我们现在再来计算绝对偏差的平均值,为13543.56。

平方偏差

摆脱负值的第二个办法是用平方偏差。即,将离均差取平方,变成非零值。

公式:

\(\Sigma \left( x_{i}-\overline {x}\right) ^{2}\)

我们现在再来计算绝对偏差的平均值,为291,622,740。

它有一个非常特殊的名称,叫做方差(VARIANCE)。

用语言解释平均平方偏差

我们要如何用语言描述方差?

  1. □ 平方偏差的均值
  2. □ 平方偏差之和除以n
  3. □ 平均平方偏差的平方
点击展开答案

第1、2正确。

一维的数据

让我们来直观地表示出运算过程,我们有一组数据并求出了平均值,我们再找出每个值与平均值之间的距离然后将其平方,这其实就是每个正方形的面积,正方形的边长就是每个值与平均值之间的距离。因此这些平方的和基本上就是每个正方形的面积之和。

这里每个距离是 \(x_{i}\) 减去 \(,每个面积是 [latex]x_{i}\) 减去 \( 的平方,我们得到平均值的平方,平均值的平方的大小可能大、可能小,大小就用美元表示,因此这个正方形的面积就是美元单位的平方。如何将这个值变回美元呢?取平方根值除以2,还是减去一个美元符号呢?

我们如何将平均平方的维度从二维($2)降为一维($)?

  • □ 求平方根
  • □ 除以2
  • □ 减去一个 $

正确答案:求平方根。这个正方形的边长就是标准偏差

标准偏差

简明地总结我们采取的措施,我们发现每个值与平均值的偏差,这就是偏差,然后我们对每个偏差取平方,等同于这些方形的面积。然后,我们得出这些方形面积的平均值,我们将该平均值开平方,从而得到方形的边长,即标准差。标准差是最常用的分布测量方法,其符号为小写的 [latex]\sigma\)。考虑到方差其实是该偏差平方的平均值,因此对方差开平方后,我们就得到标准差。

则,这组数据的标准差是 17,077

我们要很有条理,先求出平均值,求出离均差,再求出每个偏差的平方值,取平均值后再取平方根值,最后得到标准偏差。

我们现在忽略扎克伯格,计算这组数据的标准偏差。

点击展开答案

标准偏差为 6557.16。

用语言解释标准偏差

这是一个非常难的测试,你必须思考每种表述,但这真的可以帮助你理解什么是标准偏差。

如何用语言解释标准偏差?

  1. □ 平均平方偏差的平方根
  2. □ 平均平方偏差的平方
  3. □ 平方偏差的和
  4. □ 绝对偏差平方的和
  5. □ 平方偏差的和除以n,再开平方
点击展开答案

正确选项是1和5。将每个选项的公式写出判断即可。

用电子表格计算标准偏差

终于到了用电子表格的时候了,你可以选择 微软的 Excel 、苹果的 Number、谷歌的 Sheets,三者选其一。如果你没有安装软件,可以使用网页版。

微软 Excel Online版:点击进入

苹果 Number iCloud版:点击进入

谷歌 Sheets Web版:点击进入

单击此处下载数据:社交网络工作人员的薪酬示例,计算标准偏差。

点击展开答案

四舍五入后,标注偏差为 10656.9526685367。

标准偏差的重要性

现在你认识到计算标准差是相当复杂的,那么它有什么重要作用呢?我们为何不仅仅算出平均绝对偏差?为何要对每个偏差取平方,获取平均值,然后获取平方根?这样不是做了大量复杂的额外工作吗?实际上,标准差的作用非常大,它可以在进行统计分析时提供大量帮助。

事实证明,在正态分布中,即数据分布均匀,平均值等于中位数也等于众数,同时这些统计量位于分布的中心,标准差具有重要意义,大约68%的数据与平均值的偏差不超过1个标准差,也就是说68%的数据介于两者之间。而95%的数据与平均值的偏差不超过2个标准差,也就是95%的数据介于两者之间。

我们这么说是因为,曾经有一批数学家已经为我们计算出结果,并将所有数据放到一份非常实用的表格中,以后就会用到。

做一个测试吧,如果均值为60,标准偏差为13,那么:

  • 均值一个标准偏差以下的值是多少? □
  • 均值两个标准偏差以上的值是多少? □
  • 均值两个标准偏差以下的值是多少? □
点击展开答案

答案为:47、86、34。计算过程见图:

所选样本的标准偏差

为了引入最后一个知识点,还是先来一道测试。

比如说这里有个总体,计算出平均值为18.97,标准偏差是5.99。(这些数字使用R随机生成的)我们去一个样本看看,它包括18、20、23、18、21、15、17、22和21,总共9个数字,来计算这个抽样的标准偏差。

点击展开答案

标准偏差结果为 2.45。

贝塞尔校正

通常,抽样中会低估了总体中的差异性的数量,因为抽样往往是总体居于中间的值,特别是正态分布中,多值居于中间位置。因此我们从正态分布的总体中抽样时,多值也在此处附近,因为多值在这个区域内,因此,抽样中的差异性将少于整个总体的差异性

为了纠正这一现象,我们使用贝塞尔校正系数,我们把 除以n 用 除以n-1 代替,在方差的处理中也是一样的,那么对于原来的标准偏差和方差,除以n-1以后会产生什么结果呢?

贝塞耳校正会如何影响原始标准偏差和方差?

  • □ 它们会更大
  • □ 它们会更小
点击展开答案

正确结果:它们会更大。

样本标准偏差

我们用小写的s表示更正后的标准差,如果我们使用样本,就会利用它估算出真实的总体标准差 \(\sigma\),我们将此称作样本标准差,不要将其与小型数据集的实际标准差混淆。

例如,假设这是我们的数据集,其中n等于5,要计算这个数据集的标准差,我们要计算平均差,也就是3,从平均差中计算出各个方差,将这些方差相加,也称为方差和,然后除以5或n这就是这五个值的标准差。

但是,如果我们利用这个数据集估算次样本所属的较大型总体的标准差,那么我们要除以(n-1),因此,如果我们要估算总体的标准差,那么分母就应该是4。虽然很让人迷惑,但不要混淆这两者,因为我们使用这个公式分母是 n-1

注意!如果你有样本,并且需要估算总体标准差,那就可以使用这个公式,分母为 n-1,使整个标准差值稍大一些,这就是真实的总体标准差 \(\sigma\) 更准确的估算。

但是,如果你有一个数据集,并且需要计算该数据集的标准差,而不是估算总体标准差,那么你需要除以n。

果冻豆

接下来是另一种思考方式,假设你有一袋糖果,其中有一粒甘草味,四粒草莓味,四粒蓝莓味,还有一粒樱桃味和两粒酸橙味,你根据染颜色自行决定。如果我们从中取样,比如取私立糖果,那么我们拿到甘草味的可能性很低。

假如我们抽取的样本只有这些口味,这个样本无法反映我们拥有的所有口味,包括樱桃味和甘草味,也就是说抽取的样本低估了我们拥有的糖果总体的情况。

希望这个例子能够帮助你了解我们为什么要计算样本标准差时除以 n-1。

可变性就说到这里了,你可以去 Udacity 课程上,完成所有题目并继续学习,也可以跟我一起开始下一节课程的学习。

发表评论

电子邮件地址不会被公开。