描述统计学入门：研究方法入门 – Code Lab

描述统计学入门：研究方法入门

2019-2-11 22:24

|

2644

|

0

|

描述统计学,数学

2709 字

|

13 分钟

机器学习的重点应该是数据、模型、算法等，编程语言的学习固然重要，但是我觉得机器学习的本质还是数学内容。样本是机器的学习资料，样本是否好与坏，直接决定了训练的结果，所以，开始前还是务必入门一下统计学。

在《描述统计学入门》研究方法入门中，你可以学习到关于：构建、总体与样本、相关与因果、假设与试验等的内容。

统计学术语

样本 Sample：研究中实际观测或调查的一部分个体称为样本
样本统计量 Sample Statistics：描述样本特性的指标称为样本统计量。

总体 Population ：研究对象的全体称为总体，组成总体的每个成员称为个体。
总体参数 Population Parameter：描述总体特性的指标称为总体参数。

样本值：样本的大小。

样本均值 ( $\overline {x}$ )：样本的均值。
总体均值 ( $\overline {\mu}$ )：总体的均值。

相信结果

调查，是一种获取数据的方法，而我们调查的操作方法又多种多样？不同的操作方法显然得出的结果会有一定差异，操作方法不当甚至会导致结论发生质变，这是我们一定要避免的。

这里有一份调查数据：假如你明天有一场大考，你要尽力保证自己记忆力清晰，你会做什么准备呢？

调查结果：

42% 努力健身
28% 好好吃一顿
16% 通宵达旦地学习
13% 睡个好觉
1% 其他

你信任调查结果吗？在下结论前，你想要了解什么呢？

我调查了多少人？（样本值）
我调查了哪些人？
调查是怎样进行的？

的确，样本值、样本的类型、操作的方法，都是影响数据的潜在因素。

定义抽象概念

我们调查的对象具体的，例如：身高、体重、温度、几加仑的汽油、年薪等都有具体的刻画标准。而，幸福？记忆力？痒？这些抽象概念，一百个人有一百种定义。

努力，可以用花费多长时间用于学习？也可用绩点 GPA 表示。是不是很熟悉？我国的高考（一考定终生），100% 按照量化的分数来衡量你是否聪明？！呵呵:-)

年龄可以用，你的成熟度、按照年份计算的年龄等；饥饿，可以用及肚子发声的频率来确定。

总之，根据调查的目的，和抽象概念本身，确定一个比较合适的构建。下方是一个测试题，你可以尝试匹配一下各个抽象定义：

序号	抽象概念	操作定义
1	抑郁	A. 静息心率
2	饥饿	B. 皮质醇水平（压力激素）
3	压力	C. 准备考试花费的时间
4	愤怒	D. 贝克抑郁自评量表
5	快乐	E. 身体质量指数（BMI）
6	健康	F. 每一年对某一特定品牌产品的购买量
7	肥胖	G. 每分钟说了多少脏话
8	努力	H. 食物消耗量
9	品牌忠诚度	I. 微笑的时间除以不笑的时间

点击展开答案

1	2	3	4	5	6	7	8	9
D	H	B	G	I	A	E	C	F

数据

数据是统计学最重要的部分，如果没有数据，我们什么也做不了。

更好的样本

使用更大样本量
随机性

关于随机样本，已知最早的对随机一词的定义出现在由 John Venn 在1888年出版的《机会的逻辑》书中说道：

随机分布的定义，可以用暴风雨中的雨滴，这一示例表示。没有人知道某一瞬间雨滴会落到哪里？但是我们知道，如果我们拿出一张纸，这张纸会逐渐被雨滴打湿，如果我们在这张纸上找出面积相同的两个部分，这两部分最后会淋到几乎相同的雨滴数量。

这时候的样本，更容易估算出整体参数。

结论的真or假？

例如，关于 睡眠时间 和 短时记忆得分 之间有什么关系？

睡得越久，你的短时记忆得分就越高
睡得越久，你的测试成绩越好
睡得越久，你的记忆越差
二者没有关系

经过严谨的分析，最终得出：睡得越久，你的短时记忆得分就越高。

现在，问题来了。如果你更早去睡觉，第二天你的记忆力一定会更好吗？

是的
才不是呢

数据可视化后的图标

肯定是不对的，一个睡眠6小时、一个睡眠8小时的两个样本统计量得分都是70分。这其实也是统计学的一个特点，统计学的意义在于“一定量”的样本值，单纯的看一个点是没有意义的，它反映的是一个宏观上的、整体的趋势。

金色拱门理论

Thomas Friedman 在他的《凌志汽车与橄榄树》一书中提到，任何两个开设了麦当劳门店的国家从未彼此交战过，这也叫做“预防冲突的金色拱门理论”

你怎么看？

完全合理！麦当劳使人们更加开心，人们开心了，就不会有战争了。
国家将好多钱花在开设麦当劳门店上，无法维持战争开销。
开设麦当劳门店的国家的人民，吃得太不健康，结果没法打仗。
开设麦当劳门店的国家，更愿意接受全球化和国外投资，不太会与其他开放国家交战。

请注意，尽管这个理论有非常充分的实证支持，但是人类冲突是非常复杂的，无法仅由一个单方面的因素解释。

Correlation does not imply causation.
相关不代表因果。

这是一句很重要的话，务必时刻牢记在心。相关性并不能决定因果性，因为很多事件的关系是非常复杂的，多个因素共同作用导致一种结果。

因果推理

即使我们能够在两个变量之间发现某种规律，我们还是必须考虑潜在变量。

如果我们想要显示因果关系，即某个特定因素，导致了另一个因素，我们就需要进行对照实验。

调查问卷方法的优缺点

优点

你认为通过调查问卷展开调查的好处有哪些

点击展开优点？

它是了解总体的最简单方式之一
相对来说成本较低
可以远程进行
任何人都可以访问并分析调查结果

缺点

你认为通过调查问卷有哪些不足呢？

点击展开缺点

不真实的回答
有偏见的回答
参与者没理解问题的意思
参与者拒绝回答

对于，不真实的回答、参与者拒绝回答，这两个缺点，可以通过全集分解思想来调查敏感话题，具体原理和操作可以参考此篇文章：

全集分解思想调查敏感话题的方法

安慰剂

再来说一个实验，为了测试一种药丸的睡眠效果，随机的给试验者分发药丸和没有作用的安慰剂药丸，使这两种药丸在外观、颜色、大小、味道等方面保持一致。

你认为给某些人派发没有疗效的药丸的目的是什么？

点击展开目的

为了确保有效药丸没有副作用
让服用有效药丸的人群有一个对照组
了解无效药丸是否有助于睡眠

单盲实验

对于单方不告知 “安慰剂”的存在，即为单盲实验。这里对试验者不告知 “安慰剂药丸” 的存在，让每个试验者都认为自己吃下去的是真的药丸。

为什么不告诉参与者，他们服用的是有效药丸还是无效药丸？

点击展开原因

所有良好的研究都会欺骗参与者
当参与者知道他们服用的是药物，就不会参与研究了
让参与者都认为自己服用的是药物
当参与者知道自己服用的不是药物，就不会参与研究了

双盲实验

对于试验者和研究人员都不被告知 “安慰剂药丸”，即为双盲实验。

你认为这些研究人员应该知道参与者服用的是哪种药丸吗？

应该知道，因为他们的评分取决于参与者接受的疗法
不应该知道，这样可以保持参与者机密性
应该知道，这样研究人员的评分会更准确
不应该知道，因为如果知道了，他们的判断就存在偏差了

研究方法入门就说到这里了，你可以去 Udacity 课程上，完成所有题目并继续学习，也可以跟我一起开始下一节数据可视化的学习。

阅读: 2,644

暂无评论

发送评论编辑评论

Markdown

|´・ω・)ノ

ヾ(≧∇≦*)ゝ

(☆ω☆)

（╯‵□′）╯︵┴─┴

￣﹃￣

(/ω＼)

∠( ᐛ 」∠)＿

(๑•̀ㅁ•́ฅ)

→_→

୧(๑•̀⌄•́๑)૭

٩(ˊᗜˋ*)و

(ノ°ο°)ノ

(´இ皿இ｀)

⌇●﹏●⌇

(ฅ´ω`ฅ)

(╯°A°)╯︵○○○

φ(￣∇￣o)

ヾ(´･･｀｡)ノ"

( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃

(ó﹏ò｡)

Σ(っ °Д °;)っ

( ,,´･ω･)ﾉ"(´っω･｀｡)

╮(╯▽╰)╭

o(*////▽////*)q

＞﹏＜

( ๑´•ω•) "(ㆆᴗㆆ)

颜文字

Emoji

小恐龙

花!