机器学习的重点应该是数据、模型、算法等,编程语言的学习固然重要,但是我觉得机器学习的本质还是数学内容。样本是机器的学习资料,样本是否好与坏,直接决定了训练的结果,所以,开始前还是务必入门一下统计学。
在《描述统计学入门》研究方法入门中,你可以学习到关于:构建、总体与样本、相关与因果、假设与试验 等的内容。
统计学术语
样本 Sample:研究中实际观测或调查的一部分个体称为样本
样本统计量 Sample Statistics:描述样本特性的指标称为样本统计量 。
总体 Population :研究对象的全体称为总体,组成总体的每个成员称为个体 。
总体参数 Population Parameter:描述总体特性的指标称为总体参数。
样本值:样本的大小。
样本均值 ( \overline {x} ):样本的均值。
总体均值 ( \overline {\mu} ):总体的均值。
相信结果
调查,是一种获取数据的方法,而我们调查的操作方法又多种多样?不同的操作方法显然得出的结果会有一定差异,操作方法不当甚至会导致结论发生质变,这是我们一定要避免的。
这里有一份调查数据:假如你明天有一场大考,你要尽力保证自己记忆力清晰,你会做什么准备呢?
调查结果:
- 42% 努力健身
- 28% 好好吃一顿
- 16% 通宵达旦地学习
- 13% 睡个好觉
- 1% 其他
你信任调查结果吗?在下结论前,你想要了解什么呢?
- 我调查了多少人?(样本值)
- 我调查了哪些人?
- 调查是怎样进行的?
的确,样本值、样本的类型、操作的方法,都是影响数据的潜在因素。
定义抽象概念
我们调查的对象具体的,例如:身高、体重、温度、几加仑的汽油、年薪等都有具体的刻画标准。而,幸福?记忆力?痒?这些抽象概念,一百个人有一百种定义。
努力,可以用花费多长时间用于学习?也可用 绩点 GPA 表示。是不是很熟悉?我国的高考(一考定终生),100% 按照量化的分数来衡量你是否聪明?!呵呵:-)
年龄可以用,你的成熟度、按照年份计算的年龄等;饥饿,可以用及肚子发声的频率来确定。
总之,根据调查的目的,和抽象概念本身,确定一个比较合适的构建。下方是一个测试题,你可以尝试匹配一下各个抽象定义:
序号 | 抽象概念 | 操作定义 |
1 | 抑郁 | A. 静息心率 |
2 | 饥饿 | B. 皮质醇水平(压力激素) |
3 | 压力 | C. 准备考试花费的时间 |
4 | 愤怒 | D. 贝克抑郁自评量表 |
5 | 快乐 | E. 身体质量指数(BMI) |
6 | 健康 | F. 每一年对某一特定品牌产品的购买量 |
7 | 肥胖 | G. 每分钟说了多少脏话 |
8 | 努力 | H. 食物消耗量 |
9 | 品牌忠诚度 | I. 微笑的时间除以不笑的时间 |
数据
数据是统计学最重要的部分,如果没有数据,我们什么也做不了。
更好的样本
- 使用更大样本量
- 随机性
关于随机样本,已知最早的对随机一词的定义出现在由 John Venn 在1888年出版的《机会的逻辑》书中说道:
这时候的样本,更容易估算出整体参数。
结论的真or假?
例如,关于 睡眠时间 和 短时记忆得分 之间有什么关系?
- 睡得越久,你的短时记忆得分就越高
- 睡得越久,你的测试成绩越好
- 睡得越久,你的记忆越差
- 二者没有关系
经过严谨的分析,最终得出:睡得越久,你的短时记忆得分就越高。
现在,问题来了。如果你更早去睡觉,第二天你的记忆力一定会更好吗?
- 是的
- 才不是呢
肯定是不对的,一个睡眠6小时、一个睡眠8小时的两个样本统计量得分都是70分。这其实也是统计学的一个特点,统计学的意义在于“一定量”的样本值,单纯的看一个点是没有意义的,它反映的是一个宏观上的、整体的趋势。
金色拱门理论
Thomas Friedman 在他的《凌志汽车与橄榄树》一书中提到,任何两个开设了麦当劳门店的国家从未彼此交战过,这也叫做“预防冲突的金色拱门理论”
你怎么看?
- 完全合理!麦当劳使人们更加开心,人们开心了,就不会有战争了。
- 国家将好多钱花在开设麦当劳门店上,无法维持战争开销。
- 开设麦当劳门店的国家的人民,吃得太不健康,结果没法打仗。
- 开设麦当劳门店的国家,更愿意接受全球化和国外投资,不太会与其他开放国家交战。
请注意,尽管这个理论有非常充分的实证支持,但是人类冲突是非常复杂的,无法仅由一个单方面的因素解释。
相关不代表因果。
这是一句很重要的话,务必时刻牢记在心。相关性并不能决定因果性,因为很多事件的关系是非常复杂的,多个因素共同作用导致一种结果。
因果推理
即使我们能够在两个变量之间发现某种规律,我们还是必须考虑潜在变量。
如果我们想要显示因果关系,即某个特定因素,导致了另一个因素,我们就需要进行对照实验。
调查问卷方法的优缺点
优点
你认为通过调查问卷展开调查的好处有哪些
缺点
你认为通过调查问卷有哪些不足呢?
对于,不真实的回答、参与者拒绝回答,这两个缺点,可以通过全集分解思想来调查敏感话题,具体原理和操作可以参考此篇文章:
安慰剂
再来说一个实验,为了测试一种药丸的睡眠效果,随机的给试验者分发药丸和没有作用的安慰剂药丸,使这两种药丸在外观、颜色、大小、味道等方面保持一致。
你认为给某些人派发没有疗效的药丸的目的是什么?
单盲实验
对于单方不告知 “安慰剂”的存在,即为单盲实验。这里对试验者不告知 “安慰剂药丸” 的存在,让每个试验者都认为自己吃下去的是真的药丸。
为什么不告诉参与者,他们服用的是有效药丸还是无效药丸?
双盲实验
对于试验者和研究人员都不被告知 “安慰剂药丸”,即为双盲实验。
你认为这些研究人员应该知道参与者服用的是哪种药丸吗?
- 应该知道,因为他们的评分取决于参与者接受的疗法
- 不应该知道,这样可以保持参与者机密性
- 应该知道,这样研究人员的评分会更准确
- 不应该知道,因为如果知道了,他们的判断就存在偏差了
研究方法入门就说到这里了,你可以去 Udacity 课程上,完成所有题目并继续学习,也可以跟我一起开始下一节数据可视化的学习。