当两组数据的众数、均值、中位数均相同的时候,如何再比较这两组数据呢?
在《描述统计学入门》可变性中,你可以学习如何使用方差和标准差定量分析数据的分布,并学习如何使用箱线图和四分位距找出异常值。
相同的值,有什么不同?
这是有社交网络人员和没有社交网络人员的两组数据,你先看一下这两组数据的 众数、均值、中位数是否相等?
很明显,众数、均值、中位数全都相等。但这两组数据有什么区别吗?
这两个分布有什么区别?
- □ 有社交网络帐号的人的工资更一致
- □ 一般大众的工资更为一致
- □ 工资非常高的人没有社交网络帐号
- □ 工资非常低的人有社交网络帐号
- □ 一般大众的工资分布图更分散
量化数据的分布形态
如果给出了这两组数据的最大值和最小值,那么这两个分布的范围(最大值和最小值之间的差)分别是多少?范围是观察到的最大值和最小值之间的差。
第一组数据:$78,600 – $21,180 = $57,420
第二组数据:$116,020 – $7,350 = $108,670
这是一个用来衡量分布图有多分散的方法,值域很容易计算和理解。还提供了一个关于数据如何分散的概要信息。然而,正如我们以前看到的那样,方便是有代价的。
值域是否改变?
当我们向数据集中添加值时,值域是会怎样变化?
- □ 总会改变
- □ 有时会改变
- □ 永远不会改变
假定我们将扎克伯格(薪资为1000万)包含进来,那么这个分布图的值域是多少?
砍掉尾巴
统计学家处理异常值的一种方法就是忽略分布中的上尾和下尾,因此,我们将忽略掉扎克伯格,然后我们只需考虑中间的数据值。忽略尾部是什么意思?习惯上,统计学家会忽略较低的25%和较高的
四分位
将数据从小到大排列好之后,等分为4段,Q1表示25%处的值,Q2表示50%处的值(同时也是中位数),Q3表示75%处的值。
四分位距 IQR
在得出Q3减去Q1结果时,实际是在计算四分位距(差),英文 Interguartile Range,缩写为IQR。下面来看一看关于IQR的说法。
错误还是正确?
- 几乎 50% 的数据在 IQR 间。
- IQR 受到数据集中每一个值的影响。
- IQR 不受异常值的影响。
异常值
那些是异常值?
异常数值究竟是什么?比如在这些数据中,你认为异常数值会在哪里?
这个数据集中哪些是异常值?
- □ $ 60,000
- □ $ 80,000
- □ $ 100,000
- □ $ 200,000
定义异常值
如果一个值小于第一个四分位数减去1.5倍的IQR,或者大于Q3加上1.5倍的IQR,则这个数就被认定为异常数值。
Outlier < Q1 – 1.5 × (IQR)
Outlier > Q3 + 1.5 × (IQR)
上例中,你可以看到四分位的差是4,944,Q1是49,191,Q3是54,135,下来用统计学的方法确定哪些值被认为是异常数值。
你认为这个数据集中哪些是异常值?
- □ $ 60,000
- □ $ 80,000
- □ $ 100,000
- □ $ 120,000
匹配对应的箱线图
我们用箱线图(也叫盒须图)来更直观地表示四分位数和异常数值,看上去就像下图一样,最上方的线(水平)表示最小值,第二条线(水平)表示Q1,第三条线(水平)表示Q2或中位数,第四条线(水平)表示Q3 ,最下方的线 (水平) 表示最大值。下方的点表示异常值。
根据这些信息,再来看一道题,你认为哪个箱线图符合这些分布图?(方框中填入 A、B、C)
均值在IQR中吗?
现在学习了可以用箱线图来直观地表示数据,特别是表示中位数、四分位差、最小值和最大值。记住min与max之间的距离是值域,也可以写成 (min, max)。
现在再看一个概念性的问题,平均值总是在Q1和Q3之间吗?
- □ 是的
- □ 不是
IQR的不足
你发现值域和IQR都无法将所有的数据考虑进来,完全不同的两个数据集也可以有相同的IQR,例如正态分布、双峰分布和均匀分布。因此,IQR并不能满足我们对数据集的信息提取需求。
请记住我们在计算平均值时是如何使用所有数据的,因为计算平均值时,我们对所有值求和,然后除以值的个数,所以这个过程使用了所有的数据值。如果我们在计算差异性时采用类似的方法,会出现什么情况呢?换句话说,我们需要一个数字,既能反映数据的分布,又可以将所有的数据考虑进来。
衡量差异性的方法
下列哪个是衡量差异性最好的选项?选择您最认为最好的选项。
- □ 找出任意两个值之间差的平均值
- □ 找出每个值与最大值或最小值之间差的平均值
- □ 找出每个值与数据集均值之间差的平均值
总之,我们来用个数据,一步一步印出来这个值。先计算下平均值吧~
平均值是 $52,793.80,这个就不多说了,小学知识。
离均差
离均差就是每个值减去平均值,注意离均差可能是负数。
注意:
标准差是离均差平方的算术平均数的平方根。
标准差是方差的算术平方根。
下面来计算一下每个数据的离均差,并计算平均偏差。
摆脱负值,开心起来
现在我们又遇到了问题,我们的平均值偏差为0,这显然无法很好地测量分布,这会让我们认为,如果我们再三得到相同的数据点,则其分布将为0,但是现在整条数轴上有许多数据点,这将导致某种程度的分布。因此,如果我们仍然得到值为0的平均偏差,则不能通过这种方式来测量分布。问题在于,负值将抵消正值,所以你觉得:
我们如何阻止负偏差和正偏差相互抵消?
- □ 忽略负号
- □ 将偏差乘2
- □ 将偏差平方
- □ 我们什么都做不了
绝对偏差
摆脱负值的第一个办法是用绝对偏差。顾名思义,将离均差取绝对值,变成非零值。
公式:
\frac {\sum \left| x_{i}-\overline {x}\right|}{n}
\sum \left( \frac {\left| x_{i}-\overline {x}\right| }{n}\right)
\frac {\sum \left( \left| \overline {\chi }-x_{i}\right| \right) }{n}
我们现在再来计算绝对偏差的平均值,为13543.56。
平方偏差
摆脱负值的第二个办法是用平方偏差。即,将离均差取平方,变成非零值。
公式:
\Sigma \left( x_{i}-\overline {x}\right) ^{2}
我们现在再来计算绝对偏差的平均值,为291,622,740。
它有一个非常特殊的名称,叫做方差(VARIANCE)。
用语言解释平均平方偏差
我们要如何用语言描述方差?
- □ 平方偏差的均值
- □ 平方偏差之和除以n
- □ 平均平方偏差的平方
一维的数据
让我们来直观地表示出运算过程,我们有一组数据并求出了平均值,我们再找出每个值与平均值之间的距离然后将其平方,这其实就是每个正方形的面积,正方形的边长就是每个值与平均值之间的距离。因此这些平方的和基本上就是每个正方形的面积之和。
这里每个距离是 x_{i} 减去 ,每个面积是 [latex]x_{i} 减去 的平方,我们得到平均值的平方,平均值的平方的大小可能大、可能小,大小就用美元表示,因此这个正方形的面积就是美元单位的平方。如何将这个值变回美元呢?取平方根值除以2,还是减去一个美元符号呢?</p> <figure class="wp-block-image"><img src="https://www.nousbuild.org/codelab/wp-content/uploads/2019/02/aitds-variability-22.jpg" alt="" class="wp-image-569"/></figure> <p><strong>我们如何将平均平方的维度从二维($</strong><sup><strong>2</strong></sup><strong>)降为一维($)?</strong></p> <ul class="wp-block-list"><li>□ 求平方根</li><li>□ 除以2</li><li>□ 减去一个 $</li></ul> <p>正确答案:求平方根。这个正方形的边长就是<strong>标准偏差</strong>。</p> <h2 class="wp-block-heading"><strong>标准偏差</strong></h2> <p>简明地总结我们采取的措施,我们发现每个值与平均值的偏差,这就是偏差,然后我们对每个偏差取平方,等同于这些方形的面积。然后,我们得出这些方形面积的平均值,我们将该平均值开平方,从而得到方形的边长,即标准差。标准差是最常用的分布测量方法,其符号为小写的 [latex]\sigma。考虑到方差其实是该偏差平方的平均值,因此对方差开平方后,我们就得到标准差。
则,这组数据的标准差是 17,077。
我们要很有条理,先求出平均值,求出离均差,再求出每个偏差的平方值,取平均值后再取平方根值,最后得到标准偏差。
我们现在忽略扎克伯格,计算这组数据的标准偏差。
用语言解释标准偏差
这是一个非常难的测试,你必须思考每种表述,但这真的可以帮助你理解什么是标准偏差。
如何用语言解释标准偏差?
- □ 平均平方偏差的平方根
- □ 平均平方偏差的平方
- □ 平方偏差的和
- □ 绝对偏差平方的和
- □ 平方偏差的和除以n,再开平方
用电子表格计算标准偏差
终于到了用电子表格的时候了,你可以选择 微软的 Excel 、苹果的 Number、谷歌的 Sheets,三者选其一。如果你没有安装软件,可以使用网页版。
微软 Excel Online版:点击进入
苹果 Number iCloud版:点击进入
谷歌 Sheets Web版:点击进入
单击此处下载数据:社交网络工作人员的薪酬示例,计算标准偏差。
标准偏差的重要性
现在你认识到计算标准差是相当复杂的,那么它有什么重要作用呢?我们为何不仅仅算出平均绝对偏差?为何要对每个偏差取平方,获取平均值,然后获取平方根?这样不是做了大量复杂的额外工作吗?实际上,标准差的作用非常大,它可以在进行统计分析时提供大量帮助。
事实证明,在正态分布中,即数据分布均匀,平均值等于中位数也等于众数,同时这些统计量位于分布的中心,标准差具有重要意义,大约68%的数据与平均值的偏差不超过1个标准差,也就是说68%的数据介于两者之间。而95%的数据与平均值的偏差不超过2个标准差,也就是95%的数据介于两者之间。
我们这么说是因为,曾经有一批数学家已经为我们计算出结果,并将所有数据放到一份非常实用的表格中,以后就会用到。
做一个测试吧,如果均值为60,标准偏差为13,那么:
- 均值一个标准偏差以下的值是多少? □
- 均值两个标准偏差以上的值是多少? □
- 均值两个标准偏差以下的值是多少? □
所选样本的标准偏差
为了引入最后一个知识点,还是先来一道测试。
比如说这里有个总体,计算出平均值为18.97,标准偏差是5.99。(这些数字使用R随机生成的)我们去一个样本看看,它包括18、20、23、18、21、15、17、22和21,总共9个数字,来计算这个抽样的标准偏差。
贝塞尔校正
通常,抽样中会低估了总体中的差异性的数量,因为抽样往往是总体居于中间的值,特别是正态分布中,多值居于中间位置。因此我们从正态分布的总体中抽样时,多值也在此处附近,因为多值在这个区域内,因此,抽样中的差异性将少于整个总体的差异性。
为了纠正这一现象,我们使用贝塞尔校正系数,我们把 除以n 用 除以n-1 代替,在方差的处理中也是一样的,那么对于原来的标准偏差和方差,除以n-1以后会产生什么结果呢?
贝塞耳校正会如何影响原始标准偏差和方差?
- □ 它们会更大
- □ 它们会更小
样本标准偏差
我们用小写的s表示更正后的标准差,如果我们使用样本,就会利用它估算出真实的总体标准差 \sigma,我们将此称作样本标准差,不要将其与小型数据集的实际标准差混淆。
例如,假设这是我们的数据集,其中n等于5,要计算这个数据集的标准差,我们要计算平均差,也就是3,从平均差中计算出各个方差,将这些方差相加,也称为方差和,然后除以5或n这就是这五个值的标准差。
但是,如果我们利用这个数据集估算次样本所属的较大型总体的标准差,那么我们要除以(n-1),因此,如果我们要估算总体的标准差,那么分母就应该是4。虽然很让人迷惑,但不要混淆这两者,因为我们使用这个公式分母是 n-1
注意!如果你有样本,并且需要估算总体标准差,那就可以使用这个公式,分母为 n-1,使整个标准差值稍大一些,这就是真实的总体标准差 \sigma 更准确的估算。
但是,如果你有一个数据集,并且需要计算该数据集的标准差,而不是估算总体标准差,那么你需要除以n。
果冻豆
接下来是另一种思考方式,假设你有一袋糖果,其中有一粒甘草味,四粒草莓味,四粒蓝莓味,还有一粒樱桃味和两粒酸橙味,你根据染颜色自行决定。如果我们从中取样,比如取私立糖果,那么我们拿到甘草味的可能性很低。
假如我们抽取的样本只有这些口味,这个样本无法反映我们拥有的所有口味,包括樱桃味和甘草味,也就是说抽取的样本低估了我们拥有的糖果总体的情况。
希望这个例子能够帮助你了解我们为什么要计算样本标准差时除以 n-1。
可变性就说到这里了,你可以去 Udacity 课程上,完成所有题目并继续学习,也可以跟我一起开始下一节课程的学习。