在机器学习中,数据相当重要,但是数据就是未整理的信息,我们在研究数据的时候,如果不加以整理和可视化,分析和研究起来是相当枯燥和耗时的。
在《描述统计学入门》数据可视化中,你可以学习到关于:通过创建和解读直方图、柱状图和频数图,学习数据可视化基础知识。
这是 Udacity 上样本值为 50 的学生国籍数据,给你 5秒钟 的时间,说出那个国家的学生最多?
好了,5秒钟到了,图片跑掉了~ 现在回答哪个国家的学生最多?
嘻嘻,答不上来也没关系,这就是数据的缺点,如同拼图一般,只有你把数据放到正确的位置上,庐山真面目才能显现出来。
频数与频率
我们再重新看一下这份数据(这次不让它跑了吖):
你可以按照你喜欢或是习惯的方法,按照 国籍 进行分类,整理上面的数据,并计算各个分类下的频数和频率。
注:frequency 在中文中指 频数,而 relative frequency 指的是 频率(相对频数),频率的范围在 0 ~ 1,即为 (0,1),有时左右端都可以取上,即为 [0,1]。
频率(相对频数)之和恒等于 1。
百分比
百分比,就是频率百分化后的结果,虽然在数值大小上是相等的,但是数学意义不同,来看一下这两者的概念。
我们可以这样理解:
频率:在一次抽样中,发生此结果的次数。
百分比:再一次抽样中,发生此结果的可能性。
次数是数据结果的体现,属于数学或统计学范畴,而可能性是与概率当中的概念,属于概率论学科。同样,百分比的范围在 [0%, 100%]。
直方图(频数直方图)
通过长方形的高代表对应组的频数与组距的比,这样的统计图称为频数分布直方图。直方图一般为频数直方图的简称,而频率直方图就叫频率直方图。
不同组距
这是 Interactivate 直方图软件。试试这款互动直方图小应用吧!请确保每行只输入一个数字。(你可能需科学工具和要安装 Java 插件。)
如果我们不断让组距越来越大,最终会很难看清直方图的型状,因为组距太大了。如果继续的话,每个分组里会有太多的数据,直至直方图的形状无法识别。
我们选择更小的组距,可以更清楚地看直方图的形状。但某些情况下,组距太小了,也不便于查看。
图表的差异
左边是关于 Udacity 学生年龄的图表,右边是 Udacity 学生国籍的图表。这两个图表之间有何区别呢?
区别:
- 左边的图是频率直方图,右边的图是柱状图。
- 柱状图(右)每个柱条表示独特的类别,分别为欧洲、北美洲、亚洲。但对于年龄(左)来说,你可以选择任何区间和组距,这也是另一个非常重要的区别,你可以更改年龄数据的组距,但国家数据则不行。
- 柱状图(右)各大洲的顺序并不重要,但年龄(左)只有一个顺序,从年龄更小的到年龄更大的。
- 对于直方图(左)来说,x轴上的变量是值,可以量化的。对于柱状图(右)来说,x轴上的变量通常是分类或定性的。
改变组距
我们再进一步了解一下直方图的组距。 Interactivate 中有着自己的例示数据,我们现在来看 252个男性的身体脂肪率数据(Body Fat % of 252 Men)。
将组距停留在 2.662,再回答以下问题。你也可以查看截图内容回答问题。
这是 Interactivate 直方图软件。(你可能需科学工具和要安装 Java 插件。)
选择:不论组距是多少,下面哪个选项总是正确的?
- □ 大多数人的体脂率大约为 20%
- □ 图表形状大致对称
- □ 最常见的体脂率是 35%
- □ 大多数人的体脂率都在分布图的中间位置
- □ 体脂率在 15% 和 25% 之间的人比 35% 和 50% 之间的要多
- □ 体脂率在 0% 和 10% 之间的人比 18% 和 24% 之间的要多
- □ 相比之下 很少有男性体脂率高于 35% 或低于 5%
这组数据是典型的 “正态分布”,这个相当重要。正态分布的定义域是 (-∞, +∞),
注意图表左端和右端的x轴坐标,这只是正态分布曲线的一段(一部分)。
数据可视化就说到这里了,你可以去 Udacity 课程上,完成所有题目并继续学习,也可以跟我一起开始下一节课程的学习。
如果你想继续了解 正态分布 的相关知识,可以回归《高等数学》和《概率论与统计》课本。