描述统计学入门:集中趋势

在机器学习中,数据相当重要,可视化之后,就要来找数据的特征了!

在《描述统计学入门》集中趋势的内容中,你可以学习到三种量度:均值、中位数、众数。

集中趋势大纲
(点击图片查看原图)

假如你是一个刚高考完的大学生,你在 护理专业地理专业 中拿不定主意,所以你想看看护理专业和地理专业在毕业后都能拿多少钱?幸运的是,这些数据通常很容易得到。

x轴代表年收入,单位 千美元

从分布来看,大多数护理专业的学生毕业后每年能挣 $50,000 ~ $60,000 之间。但对于大多数地理专业的学生,毕业后工资应该在 $40,000 ~ $55,000 之间,地理专业学生的数据中心有点宽,但你仍可以此类分布来猜测。

你会选择哪个数字或者至少一个很小范围内的数字,来精确代表护理或地理专业的典型薪资水平?(多选)

  1. □ 出现频率最高的值
  2. □ 出现频率最低的值
  3. □ 刚好分布在中间的值
  4. □ x 轴上的最高值
  5. □ 平均值
点击展开答案

第1、3、5正确,第2、4错误。

众数:频率最高处的值称为众数。(序号1)

平均值:位于分布中间特定位置的统计值,称为平均值。 (序号2)

中位数:分布在中间的数称为中位数。 (序号3)

所以, 均值、中位数、众数,是集中趋势中的三种量度。

众数

来看一个小测试,众数是多少?


很明显,5出现了2次,而其他数字都只出现了1次,所以5是众数。但是,回到直方图中去,众数是什么呢?

这幅图中,什么是众数?

  • □ 出现频率最高的数字
  • □ 频率最高的范围(分组)
点击展开答案

正确选项: 频率最高的范围(分组)

在这个例子中,众数是出现频率最高的一个范围,因为我们无法看到单个值,但我们可以看出是哪个分组的频率最高。

众数:负偏斜分布

这是一个假设性示例,大多数人能活到60岁以上,我们假设为60岁,但不幸的是,有些人在年轻的时候就已经…,所以你认为众数在哪?

点击展开答案

众数在从左向右数的第4个圈的位置,因为它出现的频率最高。

众数:均匀分布

再来一个假设性示例,假如你住在一个多雨的城市,并且每天都下雨,这种情况下我们可能不知道频率,只知道降雨量,每个月的降雨量都差不多,用条形图显示:

然后,我们画一条直线,可以简单的将分布汇总为一条直线,然后就简化成了 均匀分布,见图:

那么,在这幅图里,什么是众数?还是众数不存在?

点击展开答案

均匀分布中,不存在众数。

众数:不止一个?

上面这个示例是没有众数的,那有没有有很多众数的?来看下面这个示例,你觉得众数在哪里?

这是人类穿鞋尺寸(码)的数据,这个分布图的众数在哪儿?

点击展开答案

有两个众数,7 和 9。因为很多女性的鞋为7码,很多男性的鞋为9码。

好了,还有最后一个关于众数的图:

这个分布图的众数是什么?( 这个例子中答案只有一个 )

  1. □ 男性
  2. □ 女性
  3. □ 1000
  4. □ 7000
点击展开答案

记住,众数出现在 x轴 上,它是最高频率处的 任何值,而 1000 和 7000,这些数字是实际的频率。

众数:更多信息

判断下面四个说法的对错:

  • 众数可用于描述任何数据类型,数值型和类别型都可以。
  • 数据集中的所有分值都会影响众数。
  • 从同一总体中抽取出的样本,每一个样本的众数都相同。
  • 众数有一个计算公式。
点击展开答案

对 错 错 错

均值

与众数不同,平均值会将全部值考虑在内,因为我们把所有值都加起来,并且除以值的个数。均值很简单,并且有固定的公式,我们就从公式入手了解:

样本统计量: \(\overline {x}=\frac {\sum \chi }{n}\)

总体的均值: \(\overline {\mu}=\frac {\sum \chi }{N}\)

均值的特征

均值有哪些特性?

  1. □ 分布中的所有分值都影响平均值
  2. □ 平均值可用公式来描述
  3. □ 同一个总体中的多个样本会有相似的平均值
  4. □ 一个样本的平均值可以用来推论其所在的总体
  5. □ 如果向数据集中添加一个极值,它的平均值会发生改变
点击展开答案

1、2、3、4、5 全部正确。

均值:含异常值的均值

接着之前 护理专业地理专业 工资的示例,如果给地理专业的数据再增加一个值(5个值变成6个),计算其均值:

基于这个数据,如果你的一个朋友想上 地理专业,向你询问地理专业最后可以挣多少钱,你会告诉他预期收入是 $123,098 吗?或者这个数据是具有误导性的?

选择

  • 这个平均值准确地反应了地理专业的薪资
  • 这个平均值有误导性
点击展开答案

正确答案,这个平均值有误导性。

很明显,地理专业中第6个数据的薪资是 $500,000,明显高于前5个数据,所以第6个数据为 异常数值,它会将平均值拉向异常值的方向,造成偏斜分布。这使得平均值难以具备数据中位数的代表性。

中位数

中位数是位于“中间”的数据,意味着有一半数据值小于它,而另一半大于它。

下面有一篇有趣的文章,举例说明了知道何时和如何使用中位数及均值,是多么重要。这个例子和婚礼费用有关,向你展示了为什么平均婚礼费用不适用于说明普通夫妇的婚礼开支。

婚庆行业的价格秘密 – 2013年6月12日

我们需要做些什么,让中位数更加有用?

  • □ 计算平均值
  • □ 按顺序排列数据
  • □ 移除异常值
  • □ 移除重复的数据值
点击展开答案

正确答案: 按顺序排列数据

中位数:含有异常值的中位数

我们紧接着示例,地理专业的6组数据中,中位数应该是多少?

你认为中位数在哪里?

  • □ $48,670
  • □ $53,160
  • □ $48,670 到 $53,160 之间都有可能
  • □ $48,670 到 $53,160 的正中间
点击展开答案

正确答案:$48,670 到 $53,160 的正中间

我们将 地理专业6组 数据排序后,可以发现,中位数位恰好位于 $48,670 ~ $53,160 之间,我们计算其平均值得到中位数 $50,915。

中位数:找出含异常值的中位数

上面是地理专业用6组数据计算出的中位数结果,现在删去异常值,我们在计算一下5组数据的中位数结果:

我们发现,5组数据的中位数是 $48,6706组数据的中位数是 $50,915。你会发现虽然第6个异常值是前5个值的10左右,但中位数的结果只从 $50,915 变成了 $48,470,这也说明了中位数的稳定性,即使偏离了基准也不会受到很大的影响。

中心测量方法

现在已经学习了众数、均值和中位数,这些方法都是中心测量方法,因为他们都描述分布中心的情况。如你所见,有的时候由于存在异常数值,均值无法描述数据中心。在有些情况下,众数也无法描述分布中心。而中位数,也不会考虑到所有的数据点。

多种中心测量方法比较

做几道测试题吧,来看一下这个直方图:

关于下面这个分布,哪个选项是正确的?(定性分析即可)

  • □ 均值 < 中位数 < 众数
  • □ 中位数 < 众数 < 均值
  • □ 众数 < 中位数 < 均值
  • □ 众数 < 均值 < 中位数
点击展开答案

正确答案:众数 < 中位数 < 均值

再来一个题目:

对于这个分布,请在方框中填入大于号,小于号或等号。

均值 □ 中位数 □ 众数

点击展开答案

正确答案: =(等于号)、 =(等于号)

Facebook 好友数调查

在 Mashable 有一个有趣的调查,Facebook 用户平均每人拥有229个好友,其中 22% 的好友是高中同学,12% 的好友是同事,9% 的好友是大学同窗。

2008年 Facebook 用户平均年龄为33岁,而在2010年 Facebook 用户平均年龄为38岁。还有一个有趣现象,52% 的 Facebook 用户每天都会访问 Facebook。还有很多数据你可以在此查看

中位数位置公式

根据 Facebook 的数据,抽取27个值,来最后做一道测试:

用符号表示一个有 n 个值的数据集的中位数。下面哪一个公式正确描述了数据排序后的中位数?

点击展开答案

当 n 为奇数(even)时,

当 n 为偶数(odd)时,

小结

最后,我们把 众数、均值和中位数的特点总结一下:

为均值、中位数和众数选择正确的描述:

  • □ 有一个简单的公式
  • □ 如果数据集中有数据的值变化,它也一定会变化
  • □ 不受组距变化的影响
  • □ 不易受到异常值的影响
  • □ 容易在直方图上找到

这个文档简短地介绍了均值、中位数和众数。

点击展开答案

集中趋势就说到这里了,你可以去 Udacity 课程上,完成所有题目并继续学习,也可以跟我一起开始下一节课程的学习。

发表评论

电子邮件地址不会被公开。