在机器学习中,数据相当重要,可视化之后,就要来找数据的特征了!
在《描述统计学入门》集中趋势的内容中,你可以学习到三种量度:均值、中位数、众数。
假如你是一个刚高考完的大学生,你在 护理专业 和 地理专业 中拿不定主意,所以你想看看护理专业和地理专业在毕业后都能拿多少钱?幸运的是,这些数据通常很容易得到。
从分布来看,大多数护理专业的学生毕业后每年能挣 $50,000 ~ $60,000 之间。但对于大多数地理专业的学生,毕业后工资应该在 $40,000 ~ $55,000 之间,地理专业学生的数据中心有点宽,但你仍可以此类分布来猜测。
你会选择哪个数字或者至少一个很小范围内的数字,来精确代表护理或地理专业的典型薪资水平?(多选)
- □ 出现频率最高的值
- □ 出现频率最低的值
- □ 刚好分布在中间的值
- □ x 轴上的最高值
- □ 平均值
众数:频率最高处的值称为众数。(序号1)
平均值:位于分布中间特定位置的统计值,称为平均值。 (序号2)
中位数:分布在中间的数称为中位数。 (序号3)
所以, 均值、中位数、众数,是集中趋势中的三种量度。
众数
来看一个小测试,众数是多少?
很明显,5出现了2次,而其他数字都只出现了1次,所以5是众数。但是,回到直方图中去,众数是什么呢?
这幅图中,什么是众数?
- □ 出现频率最高的数字
- □ 频率最高的范围(分组)
在这个例子中,众数是出现频率最高的一个范围,因为我们无法看到单个值,但我们可以看出是哪个分组的频率最高。
众数:负偏斜分布
这是一个假设性示例,大多数人能活到60岁以上,我们假设为60岁,但不幸的是,有些人在年轻的时候就已经…,所以你认为众数在哪?
众数:均匀分布
再来一个假设性示例,假如你住在一个多雨的城市,并且每天都下雨,这种情况下我们可能不知道频率,只知道降雨量,每个月的降雨量都差不多,用条形图显示:
然后,我们画一条直线,可以简单的将分布汇总为一条直线,然后就简化成了 均匀分布,见图:
那么,在这幅图里,什么是众数?还是众数不存在?
众数:不止一个?
上面这个示例是没有众数的,那有没有有很多众数的?来看下面这个示例,你觉得众数在哪里?
这是人类穿鞋尺寸(码)的数据,这个分布图的众数在哪儿?
好了,还有最后一个关于众数的图:
这个分布图的众数是什么?( 这个例子中答案只有一个 )
- □ 男性
- □ 女性
- □ 1000
- □ 7000
众数:更多信息
判断下面四个说法的对错:
- 众数可用于描述任何数据类型,数值型和类别型都可以。
- 数据集中的所有分值都会影响众数。
- 从同一总体中抽取出的样本,每一个样本的众数都相同。
- 众数有一个计算公式。
均值
与众数不同,平均值会将全部值考虑在内,因为我们把所有值都加起来,并且除以值的个数。均值很简单,并且有固定的公式,我们就从公式入手了解:
样本统计量: \overline {x}=\frac {\sum \chi }{n}
总体的均值: \overline {\mu}=\frac {\sum \chi }{N}
均值的特征
均值有哪些特性?
- □ 分布中的所有分值都影响平均值
- □ 平均值可用公式来描述
- □ 同一个总体中的多个样本会有相似的平均值
- □ 一个样本的平均值可以用来推论其所在的总体
- □ 如果向数据集中添加一个极值,它的平均值会发生改变
均值:含异常值的均值
接着之前 护理专业 和 地理专业 工资的示例,如果给地理专业的数据再增加一个值(5个值变成6个),计算其均值:
基于这个数据,如果你的一个朋友想上 地理专业,向你询问地理专业最后可以挣多少钱,你会告诉他预期收入是 $123,098 吗?或者这个数据是具有误导性的?
选择
- 这个平均值准确地反应了地理专业的薪资
- 这个平均值有误导性
很明显,地理专业中第6个数据的薪资是 $500,000,明显高于前5个数据,所以第6个数据为 异常数值,它会将平均值拉向异常值的方向,造成偏斜分布。这使得平均值难以具备数据中位数的代表性。
中位数
中位数是位于“中间”的数据,意味着有一半数据值小于它,而另一半大于它。
下面有一篇有趣的文章,举例说明了知道何时和如何使用中位数及均值,是多么重要。这个例子和婚礼费用有关,向你展示了为什么平均婚礼费用不适用于说明普通夫妇的婚礼开支。
婚庆行业的价格秘密 – 2013年6月12日
我们需要做些什么,让中位数更加有用?
- □ 计算平均值
- □ 按顺序排列数据
- □ 移除异常值
- □ 移除重复的数据值
中位数:含有异常值的中位数
我们紧接着示例,地理专业的6组数据中,中位数应该是多少?
你认为中位数在哪里?
- □ $48,670
- □ $53,160
- □ $48,670 到 $53,160 之间都有可能
- □ $48,670 到 $53,160 的正中间
我们将 地理专业 的 6组 数据排序后,可以发现,中位数位恰好位于 $48,670 ~ $53,160 之间,我们计算其平均值得到中位数 $50,915。
中位数:找出含异常值的中位数
上面是地理专业用6组数据计算出的中位数结果,现在删去异常值,我们在计算一下5组数据的中位数结果:
我们发现,5组数据的中位数是 $48,670,6组数据的中位数是 $50,915。你会发现虽然第6个异常值是前5个值的10左右,但中位数的结果只从 $50,915 变成了 $48,470,这也说明了中位数的稳定性,即使偏离了基准也不会受到很大的影响。
中心测量方法
现在已经学习了众数、均值和中位数,这些方法都是中心测量方法,因为他们都描述分布中心的情况。如你所见,有的时候由于存在异常数值,均值无法描述数据中心。在有些情况下,众数也无法描述分布中心。而中位数,也不会考虑到所有的数据点。
多种中心测量方法比较
做几道测试题吧,来看一下这个直方图:
关于下面这个分布,哪个选项是正确的?(定性分析即可)
- □ 均值 < 中位数 < 众数
- □ 中位数 < 众数 < 均值
- □ 众数 < 中位数 < 均值
- □ 众数 < 均值 < 中位数
再来一个题目:
对于这个分布,请在方框中填入大于号,小于号或等号。
均值 □ 中位数 □ 众数
Facebook 好友数调查
在 Mashable 有一个有趣的调查,Facebook 用户平均每人拥有229个好友,其中 22% 的好友是高中同学,12% 的好友是同事,9% 的好友是大学同窗。
2008年 Facebook 用户平均年龄为33岁,而在2010年 Facebook 用户平均年龄为38岁。还有一个有趣现象,52% 的 Facebook 用户每天都会访问 Facebook。还有很多数据你可以在此查看。
中位数位置公式
根据 Facebook 的数据,抽取27个值,来最后做一道测试:
用符号表示一个有 n 个值的数据集的中位数。下面哪一个公式正确描述了数据排序后的中位数?
小结
最后,我们把 众数、均值和中位数的特点总结一下:
为均值、中位数和众数选择正确的描述:
- □ 有一个简单的公式
- □ 如果数据集中有数据的值变化,它也一定会变化
- □ 不受组距变化的影响
- □ 不易受到异常值的影响
- □ 容易在直方图上找到
这个文档简短地介绍了均值、中位数和众数。
集中趋势就说到这里了,你可以去 Udacity 课程上,完成所有题目并继续学习,也可以跟我一起开始下一节课程的学习。