描述统计学入门：集中趋势

在机器学习中，数据相当重要，可视化之后，就要来找数据的特征了！

在《描述统计学入门》集中趋势的内容中，你可以学习到三种量度：均值、中位数、众数。

假如你是一个刚高考完的大学生，你在 护理专业 和 地理专业 中拿不定主意，所以你想看看护理专业和地理专业在毕业后都能拿多少钱？幸运的是，这些数据通常很容易得到。

从分布来看，大多数护理专业的学生毕业后每年能挣 $50,000 ~ $60,000 之间。但对于大多数地理专业的学生，毕业后工资应该在 $40,000 ~ $55,000 之间，地理专业学生的数据中心有点宽，但你仍可以此类分布来猜测。

你会选择哪个数字或者至少一个很小范围内的数字，来精确代表护理或地理专业的典型薪资水平？（多选）

□ 出现频率最高的值
□ 出现频率最低的值
□ 刚好分布在中间的值
□ x 轴上的最高值
□ 平均值

点击展开答案

第1、3、5正确，第2、4错误。

众数：频率最高处的值称为众数。（序号1）

平均值：位于分布中间特定位置的统计值，称为平均值。（序号2）

中位数：分布在中间的数称为中位数。（序号3）

所以，均值、中位数、众数，是集中趋势中的三种量度。

众数

来看一个小测试，众数是多少？

很明显，5出现了2次，而其他数字都只出现了1次，所以5是众数。但是，回到直方图中去，众数是什么呢？

这幅图中，什么是众数？

□ 出现频率最高的数字
□ 频率最高的范围（分组）

点击展开答案

正确选项：频率最高的范围（分组）

在这个例子中，众数是出现频率最高的一个范围，因为我们无法看到单个值，但我们可以看出是哪个分组的频率最高。

众数：负偏斜分布

这是一个假设性示例，大多数人能活到60岁以上，我们假设为60岁，但不幸的是，有些人在年轻的时候就已经…，所以你认为众数在哪？

点击展开答案

众数在从左向右数的第4个圈的位置，因为它出现的频率最高。

众数：均匀分布

再来一个假设性示例，假如你住在一个多雨的城市，并且每天都下雨，这种情况下我们可能不知道频率，只知道降雨量，每个月的降雨量都差不多，用条形图显示：

然后，我们画一条直线，可以简单的将分布汇总为一条直线，然后就简化成了 均匀分布，见图：

那么，在这幅图里，什么是众数？还是众数不存在？

点击展开答案

均匀分布中，不存在众数。

众数：不止一个？

上面这个示例是没有众数的，那有没有有很多众数的？来看下面这个示例，你觉得众数在哪里？

这是人类穿鞋尺寸（码）的数据，这个分布图的众数在哪儿？

点击展开答案

有两个众数，7 和 9。因为很多女性的鞋为7码，很多男性的鞋为9码。

好了，还有最后一个关于众数的图：

这个分布图的众数是什么？（这个例子中答案只有一个）

□ 男性
□ 女性
□ 1000
□ 7000

点击展开答案

记住，众数出现在 x轴上，它是最高频率处的 任何值，而 1000 和 7000，这些数字是实际的频率。

众数：更多信息

判断下面四个说法的对错：

众数可用于描述任何数据类型，数值型和类别型都可以。
数据集中的所有分值都会影响众数。
从同一总体中抽取出的样本，每一个样本的众数都相同。
众数有一个计算公式。

点击展开答案

对错错错

均值

与众数不同，平均值会将全部值考虑在内，因为我们把所有值都加起来，并且除以值的个数。均值很简单，并且有固定的公式，我们就从公式入手了解：

样本统计量： $\overline {x}=\frac {\sum \chi }{n}$

总体的均值： $\overline {\mu}=\frac {\sum \chi }{N}$

均值的特征

均值有哪些特性？

□ 分布中的所有分值都影响平均值
□ 平均值可用公式来描述
□ 同一个总体中的多个样本会有相似的平均值
□ 一个样本的平均值可以用来推论其所在的总体
□ 如果向数据集中添加一个极值，它的平均值会发生改变

点击展开答案

1、2、3、4、5 全部正确。

均值：含异常值的均值

接着之前 护理专业 和 地理专业 工资的示例，如果给地理专业的数据再增加一个值（5个值变成6个），计算其均值：

基于这个数据，如果你的一个朋友想上 地理专业，向你询问地理专业最后可以挣多少钱，你会告诉他预期收入是 $123,098 吗？或者这个数据是具有误导性的？

选择

这个平均值准确地反应了地理专业的薪资
这个平均值有误导性

点击展开答案

正确答案，这个平均值有误导性。

很明显，地理专业中第6个数据的薪资是 $500,000，明显高于前5个数据，所以第6个数据为 异常数值，它会将平均值拉向异常值的方向，造成偏斜分布。这使得平均值难以具备数据中位数的代表性。

中位数

中位数是位于“中间”的数据，意味着有一半数据值小于它，而另一半大于它。

下面有一篇有趣的文章，举例说明了知道何时和如何使用中位数及均值，是多么重要。这个例子和婚礼费用有关，向你展示了为什么平均婚礼费用不适用于说明普通夫妇的婚礼开支。

婚庆行业的价格秘密 – 2013年6月12日

我们需要做些什么，让中位数更加有用？

□ 计算平均值
□ 按顺序排列数据
□ 移除异常值
□ 移除重复的数据值

点击展开答案

正确答案：按顺序排列数据

中位数：含有异常值的中位数

我们紧接着示例，地理专业的6组数据中，中位数应该是多少？

你认为中位数在哪里？

□ $48,670
□ $53,160
□ $48,670 到 $53,160 之间都有可能
□ $48,670 到 $53,160 的正中间

点击展开答案

正确答案：$48,670 到 $53,160 的正中间

我们将 地理专业 的 6组数据排序后，可以发现，中位数位恰好位于 $48,670 ~ $53,160 之间，我们计算其平均值得到中位数 $50,915。

中位数：找出含异常值的中位数

上面是地理专业用6组数据计算出的中位数结果，现在删去异常值，我们在计算一下5组数据的中位数结果：

我们发现，5组数据的中位数是 $48,670，6组数据的中位数是 $50,915。你会发现虽然第6个异常值是前5个值的10左右，但中位数的结果只从 $50,915 变成了 $48,470，这也说明了中位数的稳定性，即使偏离了基准也不会受到很大的影响。

中心测量方法

现在已经学习了众数、均值和中位数，这些方法都是中心测量方法，因为他们都描述分布中心的情况。如你所见，有的时候由于存在异常数值，均值无法描述数据中心。在有些情况下，众数也无法描述分布中心。而中位数，也不会考虑到所有的数据点。

多种中心测量方法比较

做几道测试题吧，来看一下这个直方图：

关于下面这个分布，哪个选项是正确的？（定性分析即可）

□ 均值 < 中位数 < 众数
□ 中位数 < 众数 < 均值
□ 众数 < 中位数 < 均值
□ 众数 < 均值 < 中位数

点击展开答案

正确答案：众数 < 中位数 < 均值

再来一个题目：

对于这个分布，请在方框中填入大于号，小于号或等号。

均值 □ 中位数 □ 众数

点击展开答案

正确答案： =（等于号）、 =（等于号）

Facebook 好友数调查

在 Mashable 有一个有趣的调查，Facebook 用户平均每人拥有229个好友，其中 22% 的好友是高中同学，12% 的好友是同事，9% 的好友是大学同窗。

2008年 Facebook 用户平均年龄为33岁，而在2010年 Facebook 用户平均年龄为38岁。还有一个有趣现象，52% 的 Facebook 用户每天都会访问 Facebook。还有很多数据你可以在此查看。

中位数位置公式

根据 Facebook 的数据，抽取27个值，来最后做一道测试：

用符号表示一个有 n 个值的数据集的中位数。下面哪一个公式正确描述了数据排序后的中位数？

点击展开答案

当 n 为奇数（even）时，

当 n 为偶数（odd）时，

小结

最后，我们把众数、均值和中位数的特点总结一下：

为均值、中位数和众数选择正确的描述：

□ 有一个简单的公式
□ 如果数据集中有数据的值变化，它也一定会变化
□ 不受组距变化的影响
□ 不易受到异常值的影响
□ 容易在直方图上找到

这个文档简短地介绍了均值、中位数和众数。

点击展开答案

集中趋势就说到这里了，你可以去 Udacity 课程上，完成所有题目并继续学习，也可以跟我一起开始下一节课程的学习。

查看课程

阅读: 3,260

众数

众数：负偏斜分布

众数：均匀分布

众数：不止一个？

众数：更多信息

均值

均值的特征

均值：含异常值的均值

中位数

中位数：含有异常值的中位数

中位数：找出含异常值的中位数

中心测量方法

多种中心测量方法比较

Facebook 好友数调查

中位数位置公式

小结

发送评论 编辑评论

发送评论编辑评论