终于到了《描述统计学入门》的最后一章,抽样分布,你即将可以开始入门机器学习了。
在《描述统计学入门》抽样分布中,你可以学习中心极限定理,抽样分布,以及将概率知识和归一化应用到样本数据集上。
比较样本均值
我们如何将总体中的某个特定样本与其他样本相比较?具体问题如,投掷一枚六面骰子,以下哪种情况的概率较大:投两次的平均点数在 3 以上,投四次的平均点数在 5 以上?
- □ 通过算出该样本的均值
- □ 通过算出总体中其他样本的均值
- □ 通过将该样本的均值与其他样本的均值进行对比
在拉斯维加斯赌博
假设你在拉斯维加斯赌博,你玩的游戏规则是:掷四面体骰子,你需要掷两次,然后取两次掷出点数的平均值,要赢的话,平均值至少为 3(≥3),那么你的两次投掷结果平均值至少为 3 的概率是多少?随便猜一下:)
正四面体骰子每次抛出的结果为 1、2、3 或 4。
如果你想知道原理所在,请参阅这个帖子。
我们发现,当样本量为 2 时,总共有 16 钟情况:
我们用之前学过的知识,来计算它每个样本的均值,以及样本均值的均值:
样本均值的均值是多少?也就是说,如果我们投掷四面体骰子两次,平均结果预计会是多少?这就是样本均值的均值。
抽样分布
使用 WolframAlpha
先来介绍一个非常棒的网站 WolframAlpha,将样本均值复制并粘贴到 WolframAlpha 中,然后按 Enter 键。
复制这个:
1, 1.5, 2, 2.5, 1.5, 2, 2.5, 3, 2, 2.5, 3, 3.5, 2.5, 3, 3.5, 4
为了方便比较,你可以直接粘贴到下方这个 <iframe> 中:
这张图将样本均值的分布可视化,叫做抽样分布。
该抽样分布的形状会如何?
- □ 均匀分布
- □ 双峰分布
- □ 正态分布
- □ 偏斜分布
概率均值 ≥ 3
下面来看看,两次投掷的平均值大于等于 3 的概率是多少?
比较均值时需要注意什么
我们可以轻松地算出离散样本的概率,例如这个离散总体中的离散样本,但在现实生活中,总体超大时该怎么办?我们不可能计算出每个样本量为 n 的样本均值,即使能够算出,我们也不想去计算,即使总体大小只有 4 样本量也达到了 16 个,如果总体大小是 3.5亿呢?
现实的确常常如此,你已经发现了样本均值是正态分布的,我们知道所有这些样本均值的均值就是总体均值。注意,这里的总体均值是 2.5 所有可能的样本均值的均值也是 2.5。
如果给出某个随机样本,我们算出它的均值。我们该如何判断该均值位于这一样本均值分布的何处?
- 总体数量
- 样本均值分布的标准偏差
- 可能的样本的总数
标准偏差
计算标准偏差
请算出该总体的标准偏差及所有样本均值的标准偏差,样本量为 2。
每个样本的均值: 1, 1.5, 2, 2.5, 1.5, 2, 2.5, 3, 2, 2.5, 3, 3.5, 2.5, 3, 3.5, 4
标准偏差之间的比率
总体标准偏差 σ 与所有样本均值的标准偏差之比是多少?也就是说 σ/SE 等于多少?你知道这个数值是什么吗?
中心极限定理
针对庞大的总体,现在我们知道怎么计算样本均值分布的标准偏差,就能回答这个问题了。均值分布里的每个均值都是样本量为 n 的均值,该分布的标准偏差就等于总体标准偏差除以平方根 n,这就叫做中心极限定理。它不仅适用于一些简单的例子,更适用于任何总体,正是因为中心极限定理,我们的总体可以是任何数量。
假设,我们从中抽取一个样本量为 n 的样本,并计算出均值,然后再抽取出一个样本量为 n 的样本,并计算出均值,持续这么操作 100 次,假设样本量非常的大,如果画出均值分布图的话,形状会是相对正态的,其中标准偏差等于总体标准偏差除以样本量的平方根,称为 SE,因为它就是标准误差。
掷骰子
掷 1 次骰子
如果掷骰子 100 次,你会逐渐看到什么分布?
- 正态分布
- 偏斜分布
- 均匀分布
- 双峰分布
掷 2 次骰子
如果投掷两个骰子至少 100 次,然后取两个骰子的平均值,这些平均值的分布会是怎样的?
- 正态分布
- 偏斜分布
- 均匀分布
- 双峰分布
找到标准误差
这个抽样分布的均值和标准偏差是多少?
提示下:记住总体是什么。换句话说,如果我们从该总体中取出所有样本量为 2 的可能样本,然后绘制出每个样本的均值,也就是这个分布标准偏差会是多少?
“抽样分布的标准偏差”也称为标准误差。
该均值的求解方式为:将不同结果(1、2、3、4、5、6)加起来,然后除以结果的数量 (6),得出的结果为 3.5。
掷 5 次骰子
如果投掷 5 个骰子,然后画出平均值的分布图,会怎样呢?你认为这个 n 等于 5 的新样本均值分布会比这个 n 等于 2 的分布窄些还是宽些?
- 更窄
- 更宽
掷 5 次骰子的标准误差
如果从该总体中取出样本量为 5 的所有可能样本,该分布的标准误差会是多少?
n 增加时的标准误差
随着样本量的增大,标准误差是增大还是减小了?
- 增大
- 减小
n 增加时分布的形状
随着 n 的增大,抽样分布的形状是越来越宽还是越来越窄?
- 窄
- 宽
模拟应用
一个很棒的模拟应用
备注:点击页面左上方的“BEGIN”,就能进入小程序页面
M&Ms
实例
这是一个生活中的实例,我们拜访了 48 个盘子,每个盘子上有一袋 M&Ms,将这些 M&Ms 全部导出来分别放在对应的盘子中。
然后,你可以任意选择一种颜色的巧克力豆(这里选择蓝色),把它们都挑出来后整理好。那么问题来了,怎么计算巧克力袋里或盘子里的蓝色 M&Ms 的数量的平均值,即回答每盘里有多少个蓝色糖果的问题。
我们先随机取 n = 5 (个盘子)的样品并计算(蓝色巧克力豆的数量)平均值,完成后,重复操作 50 次,取 50 个随机样品,每个 n = 5 盘,接着建立一个柱状图,这个柱形图就是样品平均值的分布,记住中心极限定理所描述的,样品平均值的分布会接近正态分布,于是我们会取得一个近似于总体平均值的预期平均值。
现在通过把所有盘子里面的所有蓝色巧克力豆总数除以盘子的总数量 48,我们其实已经计算出真实的总体平均值。另外,根据中心极限定理,样品均值分布的标准方差等于总体均值的标准差 σ 除以样品数量的平方根。
M&Ms CLT
通过实际操作,我们知道袋子里的蓝色 M&Ms 巧克力豆数量的平均值为 11.25,期望的值,也就是这 50 个随机样本的均值为 11.08。它们不是完全相等,但是也很接近了,然后所有 48 盘或袋子的总体标准偏差是 3.49。
根据中心极限定理,该样本均值分布的均值和标准偏差大约是多少?
而所有样本均值的实际标准偏差结果则是 1.57,与计算结果 1.56 非常相近,也就说明大概是正态的,不是完全正态,但是非常接近正态了。
使用中心极限分布
中心极限定理可以帮助我们计算了投掷四面体骰子,平均值至少达到 3 的概率,这个定理十分有用而且很重要,因为通过该定理,我们可以知道给定的任意均值会处在样本均值分布的哪个位置,在四面体骰子示例中,我们的原问题是:如果投掷两次平均值至少达到 3 的概率是多少?
用直方图我们发现平均值至少为 3 的概率是 6 除以 16,现在我们将这一概念延伸到总体上,假设样本量可以是任意大小,那么对于样本均值分布,某个具有同样样本量的样本均值会分布在哪个位置?如果我们知道处在哪个位置,那么就可以判断该样本是否是典型情况,还是非典型情况。
Klout
Klout 分数是唯一衡量你再互联网上(主要是社交媒体)的影响力的数据,分数范围为 1 到 99,这个分数主要评判一个人的线上影响力。
你可以打开 Klout 分数表格并计算均值和标准偏差。请将其当做总体而不是样本。
数据下载:Klout 数据
小实验(可选)
如果你还想继续练习,可以:
- 选择一个数字 在 1 到 1048 之间的任何数字,打开 Klout 分数数据。然后在你所选的数字所在行找到对应的 Klout 分数,记下来。
- 接着在 1 到 1048 之间选择 5 个数字,找到这些行对应的 Klout 分数,取出平均值 然后记下该数字。
- 重复这一流程,不过这次选择 10 个数字。
- 在 Google Form(需科学上网)中依次写出这3个数字。
这就是这节课的最后一道测试题,是不是很棒啊?
描述统计学入门结束语
到此为止,描述与统计学入门已经全部完成了,我非常建议你开始学习机器学习入门,从 Tensorflow 入门 开始,先把 推论统计学入门 放一放。学习机器学习的时候,数学知识和计算机知识应该交替进行,并始终保持数学知识先一步的状况,这样有利于你的学习。如果等到统计学学完在机器学习,效果真的不太好。
下面你可以跟我开始 Tensorflow 入门了,也可以在 Udacity 上学习。