描述统计学入门:归一化

归一化是处理数据的重要过程,这一过程目的在于将原始数据转化为成熟的数学模型(正态分布、T分布等),便于分析和计算。

在《描述统计学入门》归一化中,你可以学习使用 Z 值将分布转化为标准正态分布,并学习如何使用归一化分布计算比例。

归一化大纲
(点击图片查看原图)

国际象棋

不知道你会不会国际象棋?假如你是一个国际象棋盲,下面那个描述可以让不懂国际象棋的你知道我的国际象棋水平高低?

如果你并不了解国际象棋,下面哪些选项可以让你知道我的象棋水平?

  • □ 我的象棋评分是 1800 分
  • □ 在参加比赛的美国象棋选手中,我的排名是第 8,110 位
  • □ 我的排名高于 88% 的美国象棋选手
点击展开答案

正确答案: 我的排名高于 88% 的美国象棋选手

USCF 分布

我们来看一下美国国际象棋联合会,这是 2004 年的评分分布,记住第一个分组的组距是 200,其他的分组组距都是 100。如果我的评分是 1800,我会是在美国排名第 8110 名,已经比 88% 的人都要更高,这是关于分布图形的另一项重要内容。

我们关心的是数据值的比例,小于或大于数据集中的某个值,如果我告诉你我的评分是 1800 分,在我告诉你评分分布图的形状之前,你并不知道 1800 分的含义。

如果我们想要知道一个分布中,小于或大于某个值的比例,我们应该怎么做?

  • □ 使用绝对频率
  • □ 使用相对频率
点击展开答案

正确答案:使用相对频率。我们应该使用相对频率,并将所有绝对频率转换为比例。

相对频率直方图

比例

我们来看一个示例,平均下来人们有 190 个 Facebook 好友,假设他们的样本分布图是这样的:

首先,将每个频率转换为相对频率,并绘制出相对频率图表,在圈圈上打勾。

点击展开答案

正确答案,见绿点位置。

根据你刚刚绘制的相对频率分布图,看看 Facebook 好友在 170 和 210 个之间所占的比例是多少?

  • □ 0.17
  • □ 0.25
  • □ 0.46
  • □ 无法确定
点击展开答案

正确答案:0.46

那么,在 180 和 200 之间的比例是多少?

  • □ 0.14
  • □ 0.23
  • □ 0.41
  • □ 无法确定
点击展开答案

正确答案:无法确定。

更多细节

注意!我们在之前提到了直方图存在的问题,我们为了方便牺牲了一些细节,由于分组组距,我们无法判断小于或大于某些数字的比例是多少,但是我们想知道这些信息,看看分布图中的某些得分与其他得分相比的结果,如何获得更多细节呢?

我们怎样做可以获得更多细节信息?

  • □ 向数据集中加入更多信息
  • □ 增大组距
  • □ 减小组距
点击展开答案

正确答案:减小组距。

更小的组距可以提供更多的细节。例如,将组距减少一半,现在组距是 10 而不是 20 这样柱或区间的数量就翻了一番,现在多了一倍的值,可以让我们清晰地知道,大于或小于这些值的比例。

无限小

但是,我们仍然不知道有多少值小于每个分组之间的任何值。例如,我们无法判断小于 175 的比例,理想情况下,我们尽量希望组距越小越好,实际上是无穷小,但是看看降低组距之后,即增加分组数量,数据会发生什么情况。

以下是,这是 50、100、1,000、30,000、150,000 组距的变化:

可以看到,y轴上的频率越来越小,到最后 150,000 组距,每个容器的频率要么是 0 或 1,这是因为分组太小了。很多分组中只有一个值,甚至没有任何值。最终如果继续降低容器的大小,分布图的形状变得松散起来。

连续分布

现在我们陷入了困境,我们想要很小的组距,尽可能的提供更多的细节信息,描述出数据值相对于分布图剩余数据值的位置,最终我们开始丢失分布图的形状。如果组距很大,则无法判断小于任何数据值的比例,我们将使用一个分布图理论模型来解决这一难题。

该模型的曲线较为光滑,使用的是相对频率,这是一个理论上连续的分布图,可以用方程式来表示,使我们能够计算 x 轴上任何两个值之间的比例。

这个理论上的连续曲线下的面积是多少?

点击展开答案

正确答案:1

理论正态分布

在大部分情况下,我们将重点研究正态分布数据,正态分布类型多样,有宽扁型、瘦高型,或介于二者之间,但曲线下的面积始终为 1 或 100%。之前还在正态分布数据集中看到,平均值、中位数和众数几乎相等,在理论模型中,它们是完全相等的。理论模型是完美对称的,在现实生活中几乎不会发生。

这些模型接近于我们的现实分布图,但是通常可以非常相近,在理论模型中,大多数数据都位于中间,分布在平均值、中位数和众数周围。还记得 大约 68% 的数据在平均值的 1 个标准偏差内95% 的数据在平均值的 2个标准偏差内

Z

特定值在 x 轴上的位置通常用标准偏差来描述,我们将 任何值与平均值的标准偏差,称为 Z。通过将正态分布中的值转换为这个特殊数字 z,就可以知道小于或大于该值的百分比。例如如果某个值与平均值相差 1 个标准偏差,则无论是哪种正态分布,我们都知道大约 84% 的值小于该值。

不受欢迎

Katie 在 Facebook 上只有 63 个好友,Andy 在 Twitter 上只有 54 个关注数。Facebook 好友平均数量是 190 人,Katie 低于平均值 127 个好友;Twitter 关注着的平均值是 208 人,所以 Andy 低于平均值 154 个好友。

再来看看比例,Katie 的 Facebook 好友数量是平均值的 33%,Andy 的 Twitter 的关注着只有平均值的 25%。

了解受欢迎程度的更好的方式是,看看分布情况,Facebook 好友和 Twitter 关注着的分布是正态的,Twitter 关注着的标准偏差是 60,但是 Facebook 好友的标准偏差只有 35,余平均值的标准偏差肯定是了解受欢迎程度的更加方式。

Katie 的标准偏差

根据这些分布情况,Katie 的 Facebook 好友数量与 Facebook 好友数量平均值的标准偏差是多少?注意,Katie 有 63 个 Facebook 好友,Facebook 好友的平均数量是 190 个,标准偏差是 36。

Katie 的 Facebook 好友数量与均值相差多少个标准偏差?

点击展开答案

\( \frac {127}{36} = 3.53 \)

Andy 的标准偏差

Andy 的 Twitter 关注者数量与均值相差多少个标准偏差?注意,Andy 在 Twitter 上只有 54 个关注数,Twitter 关注着的平均值是 208 人。

Andy 的 Twitter 关注者数量与均值相差多少个标准偏差?

点击展开答案

\( \frac {154}{60} = 2.57 \)

谁更不受欢迎?

如果 Andy 只使用 Twitter,而 Katie 只使用 Facebook,我们可以说 Andy 比 Katie 更不受欢迎吗?

  • □ 是
  • □ 否
点击展开答案

正确答案:否

为什么?

因为看分布图的话,它们都是不同的,我们可以通过在同一坐标轴上对比它们,换句话说,根据它们的唯一标准偏差,这叫做标准化分布图,使用 0 作为参考点。

当我们标准化后,发现 Katie (蓝色)Andy (红色) 离平均值更远。所以最不受欢迎的人是 Katie

Z – 值

我们不仅仅关心各个值与平均值之间的距离,还关心这些值是小于还是大于平均值,在 x 轴上标准化任何值时,我们得出 z 值,我们始终会用 x 减去平均值然后除以标准偏差,这样,当某个值小于平均值时,结果会是负的 z 值。

\( z = \frac{x-\mu}{\sigma} \)

z 值是指任何值距离平均值的标准偏差数,因此,我们可以将正态分布中的任何值转换为 z 值,这么转换时,我们就标准化了分布图,我们可以对任何正态分布图进行标准化。

负 Z – 值

负的 Z 值意味着什么?

  1. □ 原始值是负数
  2. □ 原始值小于平均值
  3. □ 原始值小于 0
  4. □ 原始值减去均值是负数
点击展开答案

第 2 、4 正确。

归一化分布的均值

如果我们通过所有值都转换为 z 值来归一化分布图,该归一化分布图的新平均值会是多少?

点击展开答案

正确答案:0

一种方法是,如果我们向分布图平均加了平均值 -30,如果我们减去 -30,实际上是加了 30,我们将分布图往右移动,再次中心位于 0 处。

另一种计算方式是,平均值的新 z 值是多少?假设平均值是 x 平均值的 z 值本质上是平均值距离平均值的标准偏差数,结果是 0,这里是 μ 而不是 x,即:

\( z = \frac{\mu – \mu}{\sigma} = 0 \)

这是另一种计算方法。

归一化分布的标准偏差

如果我们将数据归一化处理为 z 值,该归一化分布的新标准偏差会是多少?

点击展开答案

正确答案:1

注意,当我们计算分布图中任何值的 z 值时,首先减去平均值,这会平移分布图,而不会改变分布图的形状,这样 0 就变成了平均值。然后除以标准偏差,这样就改变了形状。

所以,就有:

\( z = \frac{\sigma – 0}{\sigma} = 1 \)

标准正态分布

对于任何正态分布,我们都可以通过以下方式归一化该分布,首先减去平均值,将其平移到 0 处,然后除以标准偏差,使标准偏差等于 1,这就叫做标准正态分布

受欢迎的 Chris

假设 Chris 非常受欢迎,他拥有的 Facebook 好友数大于平均值 2.5 个标准偏差,也就是说他比 99% 的人好友都要多,如果原始数据的真是标准偏差依然是 36,原始平均值依然是 190,那么 Chris 有多少个 Facebook 好友?

Chris 有多少 Facebook 好友?

点击展开答案

正确答案:280 个好友。

一种方法是,高于平均值 2.5 个标准偏差,如果标准偏差是 36,那么 2.5 个标准偏差是多少?2.5 个标准偏差等于 36 × 2.5 = 90,所以 Chris 的好友数比平均值多 90 个平均值是 190 + 90 = 280,所以 Chris 有 280 个 Facebook 好友。

另一种方法是使用方程式 Chris 的 z 值是 2.5 等于原始值减去平均值,然后除以标准偏差,如果代入已知的值 2.5 是 z 的值 x(Chris 的 Facebook 好友数)减去平均值,然后除以标准偏差,如何按照代数方法,交叉相乘,然后加上 190 就得出了好友数为 280。

转换为 z – 值

假设我们希望标准偏差为 10,我们从原始的 Facebook 分布开始,平均值为 190 标准偏差为 36,假设某人有 210 个 Facebook 好友,先将该值转换为 z 值,结果是多少?位于该分不的什么位置?

点击展开答案

正确答案:

\( z = \frac{210 – 190}{36} = 0.56 \)

转化为受欢迎值

现在我们想要将其转化为新的受欢迎程度图标,平均值为 50,标准偏差为 10 请计算下,如果他有 210 个 Facebook 好友 ,他的受欢迎程度是多少?注意,我们对受欢迎程度的操作性定义是 Facebook 好友数,虽然这不一定真实。

点击展开答案

正确答案:55.6

z 值是 0.56,我们要计算出平均值为 50 标准偏差为 10 的正态分布中,这个值对应的是什么值:

\( 0.56 = \frac{x -50}{10} = 0.56 \)

得,x = 55.6

本质上我们的操作是,将平均值为 190 标准偏差为 36 的扁平分布转化为平均值为 0 标准偏差为 1 的标准正态分布,然后将其转化为平均值为 50 标准偏差为 10 的正态分布。这些分布值的值对应于相同的小于百分比的值,所以这里的小于值 210 的比例与这里的小于值 0.56 的比例完全相同,和这个分布里小于值 55.6 的比例完全相同。

归一化就说到这里了,你可以去 Udacity 课程上,完成所有题目并继续学习,也可以跟我一起开始下一节课程的学习。

发表评论

电子邮件地址不会被公开。