接下来,我们需要好好学习一下正态分布,这是自然社会中最为重要的分布。
在《描述统计学入门》正态分布中,你可以学习概率密度函数(PDF),正态分布和 z 表格。
概率密度函数简介
在正态分布中,通过查看某个值 x 轴上的位置,即标准偏差,我们就能够确定小于或大于任何值的百分比。这篇文章中我们将学习如何计算这些百分比。
注意,我们使用的是理论曲线来绘制数据模型,该曲线下的面积是 1,因为它是用分布数据的相对频率(即比例)来绘制数据模型。该曲线叫做概率密度函数,通常缩写为 PDF。
认识概率密度函数
对于该理论曲线,我们可以用方程式来表示,然后通过微积分算出曲线下的面积。实际上,数学家们已经计算并整理成了表格公式(你可以在《高等数学中》找到),任何两个值之间的曲线下的面积。
首先,我们来讲解下正态概率密度函数和曲线下的面积,曲线末端实际上不会接触到 x 轴,只会无穷接近 x 轴,y = 0 是水平渐近线。原因是因为我们永远都不能 100% 确定某件事。换句话说,可以在最远处有个值,距离均值非常的远,但是为达到该值域,该值的概率非常的小,其概率相当于该曲线下改点到 x 轴的面积,我们会看到末端越来越接近 x 轴,但是永远不会接触到 x 轴,而该末端和 x 轴之间的面积或越来越小,也就是达到该值域或耕地值的概率将越来越小。
从负无穷到 x 取值的曲线下的面积就等于随机地从样本中选择一个小于 x 的受试者对应的概率,也就等于样本或总体中值小于 x 的比例。
需要注意的是,正态分布多种多样,可以使宽扁型或瘦高型,但是密度曲线下的总面积始终为 1。
可以得到,在均值 1 个标准偏差范围内的面积约为 68%,均值 2 个标准偏差范围内的面积为 95%。
那么问题来了,对于正态分布,数据值低于均值 2 个标准偏差,或高于均值 2 个标准偏差的概率是多少? 请用比例(即,小数)写出你的答案。(或者:某个数据值与均值的差异超过 2 个标准偏差以上)
Facebook 好友比例
我们用一个 Facebook 好友数分布的示例:
假设该分布是正态分布,平均每个人有 190 个 Facebook 好友,标准偏差是 36 ,那么多少比例的人的 Facebook 好友数少于 154?
提示:可以看上个视频回顾关键数据 68% 95% 以及曲线下的面积总和是 1
下面来一个难一点的,Facebook 好友数少于 240 的人的比例是多少?
下面介绍用 Z – 表格计算。
Z – 表格
之前说过,如果我们有概率密度函数的方程式,我们就可以通过微积分计算出任何两个值之间或负无穷与任何值之间曲线下的面积,数学家将这些值放入了一个表格中,你可以在这里获取。
该表格是针对标准正态分布的,也就是平均值为 0,标准偏差是 1 的正态分布。也可以叫服从 (0, 1) 分布,记为:
N ~ (0, 1)
表格中,十分位垂直排列,百分位水平排列。假设 z 值是 -2.75,先找平均值 -2.7 位于此处(垂直排列的),再找到 0.05 处(水平排列的),水平和垂直交叉与 0.003,即比例是 0.003,这就是小于 -2.75 的概率。
现在,再来做一下刚才那个问题, Facebook 好友数少于 240 的人的比例是多少? (刚才的答案是 0.84 与 0.975 之间)
你可以通过该应用以图标的形式查看小于任何 z 值的曲线下的面积,如果需要的话,你可以打开该应用,它将帮助你进一步掌握整个流程。点击此处
延伸学习
如果你的高等数学和概率论与统计知识很扎实,就不用再看了。如果你几乎就没学过,建议你可以看一下《概率论与统计》中的正态分布和密度函数知识。
正态分布就说到这里了,你可以去 Udacity 课程上,完成所有题目并继续学习,也可以跟我一起开始下一节课程的学习。