描述统计学入门:研究方法入门

机器学习的重点应该是数据、模型、算法等,编程语言的学习固然重要,但是我觉得机器学习的本质还是数学内容。样本是机器的学习资料,样本是否好与坏,直接决定了训练的结果,所以,开始前还是务必入门一下统计学。

在《描述统计学入门》研究方法入门中,你可以学习到关于:构建、总体与样本、相关与因果、假设与试验 等的内容。

研究方法入门大纲
(点击图片查看原图)

统计学术语

样本 Sample:研究中实际观测或调查的一部分个体称为样本
样本统计量 Sample Statistics:描述样本特性的指标称为样本统计量 。

总体 Population 研究对象的全体称为总体,组成总体的每个成员称为个体 。
总体参数 Population Parameter:描述总体特性的指标称为总体参数。

样本值:样本的大小。

样本均值 ( \(\overline {x}\) ):样本的均值。
总体均值 ( \(\overline {\mu}\) ):总体的均值。

相信结果

调查,是一种获取数据的方法,而我们调查的操作方法又多种多样?不同的操作方法显然得出的结果会有一定差异,操作方法不当甚至会导致结论发生质变,这是我们一定要避免的。

这里有一份调查数据:假如你明天有一场大考,你要尽力保证自己记忆力清晰,你会做什么准备呢?

调查结果:

  • 42% 努力健身
  • 28% 好好吃一顿
  • 16% 通宵达旦地学习
  • 13% 睡个好觉
  • 1% 其他

你信任调查结果吗?在下结论前,你想要了解什么呢?

  • 我调查了多少人?(样本值)
  • 我调查了哪些人?
  • 调查是怎样进行的?

的确,样本值、样本的类型、操作的方法,都是影响数据的潜在因素。

定义抽象概念

我们调查的对象具体的,例如:身高、体重、温度、几加仑的汽油、年薪等都有具体的刻画标准。而,幸福?记忆力?痒?这些抽象概念,一百个人有一百种定义。

努力,可以用花费多长时间用于学习?也可用 绩点 GPA 表示。是不是很熟悉?我国的高考(一考定终生),100% 按照量化的分数来衡量你是否聪明?!呵呵:-)

年龄可以用,你的成熟度、按照年份计算的年龄等;饥饿,可以用及肚子发声的频率来确定。

总之,根据调查的目的,和抽象概念本身,确定一个比较合适的构建。下方是一个测试题,你可以尝试匹配一下各个抽象定义:

序号 抽象概念 操作定义
1 抑郁 A. 静息心率
2 饥饿 B. 皮质醇水平(压力激素)
3 压力 C. 准备考试花费的时间
4 愤怒 D. 贝克抑郁自评量表
5 快乐 E. 身体质量指数(BMI)
6 健康 F. 每一年对某一特定品牌产品的购买量
7 肥胖 G. 每分钟说了多少脏话
8 努力 H. 食物消耗量
9 品牌忠诚度 I. 微笑的时间除以不笑的时间
点击展开答案
1 2 3 4 5 6 7 8 9
D H B G I A E C F

数据

数据是统计学最重要的部分,如果没有数据,我们什么也做不了。

更好的样本

  • 使用更大样本量
  • 随机性

关于随机样本,已知最早的对随机一词的定义出现在由 John Venn 在1888年出版的《机会的逻辑》书中说道:

随机分布的定义,可以用暴风雨中的雨滴,这一示例表示。没有人知道某一瞬间雨滴会落到哪里?但是我们知道,如果我们拿出一张纸,这张纸会逐渐被雨滴打湿,如果我们在这张纸上找出面积相同的两个部分,这两部分最后会淋到几乎相同的雨滴数量。

这时候的样本,更容易估算出整体参数。

结论的真or假?

例如,关于 睡眠时间 短时记忆得分 之间有什么关系?

  • 睡得越久,你的短时记忆得分就越高
  • 睡得越久,你的测试成绩越好
  • 睡得越久,你的记忆越差
  • 二者没有关系

经过严谨的分析,最终得出:睡得越久,你的短时记忆得分就越高。

现在,问题来了。如果你更早去睡觉,第二天你的记忆力一定会更好吗?

  • 是的
  • 才不是呢
数据可视化后的图标

肯定是不对的,一个睡眠6小时、一个睡眠8小时的两个样本统计量得分都是70分。这其实也是统计学的一个特点,统计学的意义在于“一定量”的样本值,单纯的看一个点是没有意义的,它反映的是一个宏观上的、整体的趋势。

金色拱门理论

Thomas Friedman 在他的《凌志汽车与橄榄树》一书中提到,任何两个开设了麦当劳门店的国家从未彼此交战过,这也叫做“预防冲突的金色拱门理论”

你怎么看?

  • 完全合理!麦当劳使人们更加开心,人们开心了,就不会有战争了。
  • 国家将好多钱花在开设麦当劳门店上,无法维持战争开销。
  • 开设麦当劳门店的国家的人民,吃得太不健康,结果没法打仗。
  • 开设麦当劳门店的国家,更愿意接受全球化和国外投资,不太会与其他开放国家交战。

请注意,尽管这个理论有非常充分的实证支持,但是人类冲突是非常复杂的,无法仅由一个单方面的因素解释。

Correlation does not imply causation.
相关不代表因果。

这是一句很重要的话,务必时刻牢记在心。相关性并不能决定因果性,因为很多事件的关系是非常复杂的,多个因素共同作用导致一种结果。

因果推理

即使我们能够在两个变量之间发现某种规律,我们还是必须考虑潜在变量

如果我们想要显示因果关系,即某个特定因素,导致了另一个因素,我们就需要进行对照实验

调查问卷方法的优缺点

优点

你认为通过调查问卷展开调查的好处有哪些

点击展开优点?
  • 它是了解总体的最简单方式之一
  • 相对来说成本较低
  • 可以远程进行
  • 任何人都可以访问并分析调查结果

缺点

你认为通过调查问卷有哪些不足呢?

点击展开缺点
  • 不真实的回答
  • 有偏见的回答
  • 参与者没理解问题的意思
  • 参与者拒绝回答

对于,不真实的回答、参与者拒绝回答,这两个缺点,可以通过全集分解思想来调查敏感话题,具体原理和操作可以参考此篇文章:

安慰剂

再来说一个实验,为了测试一种药丸的睡眠效果,随机的给试验者分发药丸没有作用的安慰剂药丸,使这两种药丸在外观、颜色、大小、味道等方面保持一致。

你认为给某些人派发没有疗效的药丸的目的是什么?

点击展开目的
  • 为了确保有效药丸没有副作用
  • 让服用有效药丸的人群有一个对照组
  • 了解无效药丸是否有助于睡眠

单盲实验

对于单方不告知 “安慰剂”的存在,即为单盲实验。这里对试验者不告知 “安慰剂药丸” 的存在,让每个试验者都认为自己吃下去的是真的药丸。

为什么不告诉参与者,他们服用的是有效药丸还是无效药丸?

点击展开原因

  • 所有良好的研究都会欺骗参与者
  • 当参与者知道他们服用的是药物,就不会参与研究了
  • 让参与者都认为自己服用的是药物
  • 当参与者知道自己服用的不是药物,就不会参与研究了

双盲实验

对于试验者和研究人员都不被告知 “安慰剂药丸”,即为双盲实验。

你认为这些研究人员应该知道参与者服用的是哪种药丸吗?

  • 应该知道,因为他们的评分取决于参与者接受的疗法
  • 不应该知道,这样可以保持参与者机密性
  • 应该知道,这样研究人员的评分会更准确
  • 不应该知道,因为如果知道了,他们的判断就存在偏差了

研究方法入门就说到这里了,你可以去 Udacity 课程上,完成所有题目并继续学习,也可以跟我一起开始下一节数据可视化的学习。

发表评论

电子邮件地址不会被公开。