归一化是处理数据的重要过程,这一过程目的在于将原始数据转化为成熟的数学模型(正态分布、T分布等),便于分析和计算。
在《描述统计学入门》归一化中,你可以学习使用 Z 值将分布转化为标准正态分布,并学习如何使用归一化分布计算比例。
国际象棋
不知道你会不会国际象棋?假如你是一个国际象棋盲,下面那个描述可以让不懂国际象棋的你知道我的国际象棋水平高低?
如果你并不了解国际象棋,下面哪些选项可以让你知道我的象棋水平?
- □ 我的象棋评分是 1800 分
- □ 在参加比赛的美国象棋选手中,我的排名是第 8,110 位
- □ 我的排名高于 88% 的美国象棋选手
USCF 分布
我们来看一下美国国际象棋联合会,这是 2004 年的评分分布,记住第一个分组的组距是 200,其他的分组组距都是 100。如果我的评分是 1800,我会是在美国排名第 8110 名,已经比 88% 的人都要更高,这是关于分布图形的另一项重要内容。
我们关心的是数据值的比例,小于或大于数据集中的某个值,如果我告诉你我的评分是 1800 分,在我告诉你评分分布图的形状之前,你并不知道 1800 分的含义。
如果我们想要知道一个分布中,小于或大于某个值的比例,我们应该怎么做?
- □ 使用绝对频率
- □ 使用相对频率
相对频率直方图
比例
我们来看一个示例,平均下来人们有 190 个 Facebook 好友,假设他们的样本分布图是这样的:
首先,将每个频率转换为相对频率,并绘制出相对频率图表,在圈圈上打勾。
根据你刚刚绘制的相对频率分布图,看看 Facebook 好友在 170 和 210 个之间所占的比例是多少?
- □ 0.17
- □ 0.25
- □ 0.46
- □ 无法确定
那么,在 180 和 200 之间的比例是多少?
- □ 0.14
- □ 0.23
- □ 0.41
- □ 无法确定
更多细节
注意!我们在之前提到了直方图存在的问题,我们为了方便牺牲了一些细节,由于分组组距,我们无法判断小于或大于某些数字的比例是多少,但是我们想知道这些信息,看看分布图中的某些得分与其他得分相比的结果,如何获得更多细节呢?
我们怎样做可以获得更多细节信息?
- □ 向数据集中加入更多信息
- □ 增大组距
- □ 减小组距
无限小
但是,我们仍然不知道有多少值小于每个分组之间的任何值。例如,我们无法判断小于 175 的比例,理想情况下,我们尽量希望组距越小越好,实际上是无穷小,但是看看降低组距之后,即增加分组数量,数据会发生什么情况。
以下是,这是 50、100、1,000、30,000、150,000 组距的变化:
可以看到,y轴上的频率越来越小,到最后 150,000 组距,每个容器的频率要么是 0 或 1,这是因为分组太小了。很多分组中只有一个值,甚至没有任何值。最终如果继续降低容器的大小,分布图的形状变得松散起来。
连续分布
现在我们陷入了困境,我们想要很小的组距,尽可能的提供更多的细节信息,描述出数据值相对于分布图剩余数据值的位置,最终我们开始丢失分布图的形状。如果组距很大,则无法判断小于任何数据值的比例,我们将使用一个分布图理论模型来解决这一难题。
该模型的曲线较为光滑,使用的是相对频率,这是一个理论上连续的分布图,可以用方程式来表示,使我们能够计算 x 轴上任何两个值之间的比例。
这个理论上的连续曲线下的面积是多少?
理论正态分布
在大部分情况下,我们将重点研究正态分布数据,正态分布类型多样,有宽扁型、瘦高型,或介于二者之间,但曲线下的面积始终为 1 或 100%。之前还在正态分布数据集中看到,平均值、中位数和众数几乎相等,在理论模型中,它们是完全相等的。理论模型是完美对称的,在现实生活中几乎不会发生。
这些模型接近于我们的现实分布图,但是通常可以非常相近,在理论模型中,大多数数据都位于中间,分布在平均值、中位数和众数周围。还记得 大约 68% 的数据在平均值的 1 个标准偏差内,95% 的数据在平均值的 2个标准偏差内。
Z
特定值在 x 轴上的位置通常用标准偏差来描述,我们将 任何值与平均值的标准偏差,称为 Z。通过将正态分布中的值转换为这个特殊数字 z,就可以知道小于或大于该值的百分比。例如如果某个值与平均值相差 1 个标准偏差,则无论是哪种正态分布,我们都知道大约 84% 的值小于该值。
不受欢迎
Katie 在 Facebook 上只有 63 个好友,Andy 在 Twitter 上只有 54 个关注数。Facebook 好友平均数量是 190 人,Katie 低于平均值 127 个好友;Twitter 关注着的平均值是 208 人,所以 Andy 低于平均值 154 个好友。
再来看看比例,Katie 的 Facebook 好友数量是平均值的 33%,Andy 的 Twitter 的关注着只有平均值的 25%。
了解受欢迎程度的更好的方式是,看看分布情况,Facebook 好友和 Twitter 关注着的分布是正态的,Twitter 关注着的标准偏差是 60,但是 Facebook 好友的标准偏差只有 35,余平均值的标准偏差肯定是了解受欢迎程度的更加方式。
Katie 的标准偏差
根据这些分布情况,Katie 的 Facebook 好友数量与 Facebook 好友数量平均值的标准偏差是多少?注意,Katie 有 63 个 Facebook 好友,Facebook 好友的平均数量是 190 个,标准偏差是 36。
Katie 的 Facebook 好友数量与均值相差多少个标准偏差?
Andy 的标准偏差
Andy 的 Twitter 关注者数量与均值相差多少个标准偏差?注意,Andy 在 Twitter 上只有 54 个关注数,Twitter 关注着的平均值是 208 人。
Andy 的 Twitter 关注者数量与均值相差多少个标准偏差?
谁更不受欢迎?
如果 Andy 只使用 Twitter,而 Katie 只使用 Facebook,我们可以说 Andy 比 Katie 更不受欢迎吗?
- □ 是
- □ 否
为什么?
因为看分布图的话,它们都是不同的,我们可以通过在同一坐标轴上对比它们,换句话说,根据它们的唯一标准偏差,这叫做标准化分布图,使用 0 作为参考点。
当我们标准化后,发现 Katie (蓝色) 比 Andy (红色) 离平均值更远。所以最不受欢迎的人是 Katie。
Z – 值
我们不仅仅关心各个值与平均值之间的距离,还关心这些值是小于还是大于平均值,在 x 轴上标准化任何值时,我们得出 z 值,我们始终会用 x 减去平均值然后除以标准偏差,这样,当某个值小于平均值时,结果会是负的 z 值。
z = \frac{x-\mu}{\sigma}
z 值是指任何值距离平均值的标准偏差数,因此,我们可以将正态分布中的任何值转换为 z 值,这么转换时,我们就标准化了分布图,我们可以对任何正态分布图进行标准化。
负 Z – 值
负的 Z 值意味着什么?
- □ 原始值是负数
- □ 原始值小于平均值
- □ 原始值小于 0
- □ 原始值减去均值是负数
归一化分布的均值
如果我们通过所有值都转换为 z 值来归一化分布图,该归一化分布图的新平均值会是多少?
归一化分布的标准偏差
如果我们将数据归一化处理为 z 值,该归一化分布的新标准偏差会是多少?
标准正态分布
对于任何正态分布,我们都可以通过以下方式归一化该分布,首先减去平均值,将其平移到 0 处,然后除以标准偏差,使标准偏差等于 1,这就叫做标准正态分布。
受欢迎的 Chris
假设 Chris 非常受欢迎,他拥有的 Facebook 好友数大于平均值 2.5 个标准偏差,也就是说他比 99% 的人好友都要多,如果原始数据的真是标准偏差依然是 36,原始平均值依然是 190,那么 Chris 有多少个 Facebook 好友?
Chris 有多少 Facebook 好友?
转换为 z – 值
假设我们希望标准偏差为 10,我们从原始的 Facebook 分布开始,平均值为 190 标准偏差为 36,假设某人有 210 个 Facebook 好友,先将该值转换为 z 值,结果是多少?位于该分不的什么位置?
转化为受欢迎值
现在我们想要将其转化为新的受欢迎程度图标,平均值为 50,标准偏差为 10 请计算下,如果他有 210 个 Facebook 好友 ,他的受欢迎程度是多少?注意,我们对受欢迎程度的操作性定义是 Facebook 好友数,虽然这不一定真实。
归一化就说到这里了,你可以去 Udacity 课程上,完成所有题目并继续学习,也可以跟我一起开始下一节课程的学习。