全集分解思想调查敏感话题的方法

问题背景

在调查敏感话题的时候,如果你不给调查对象足够的隐私保护,你必然不会得到敏感问题的正确数据,而这种隐私保护,你承诺的再好,保护的再好,对于陌生人来说,也依旧不能够给予你的信任,不会告诉你真实情况。所以为了能够较准确的获取敏感问题的数据,使用 “全集分解” 思想是一种不错的估计方法。

类似于以上众多的涉及隐私的问题,就算是不记名调查,也依然没有多少人愿意开诚布公。绝大多数做过弊的人不会告诉你自己做过弊;恋爱中的渣男必然也不会告诉你自己有多手准备。所以,利用 全集分解思想 可以较为准确的估计此类敏感话题。

全集分解思想

在概率论以数理统计中,全集分解的思想主要用在二维随机变量,一个是连续,一个是离散,且独立的情况。

我们的调查对象是独立的个人,是离散型的模型,并且每个人相互独立,故可以使用全概率公式。

\(P\left( B\right) =\sum ^{n}_{i=1}P\left( A_{i}\right) P\left( B | A_{i}\right)\)
具体操作

操作比较简单,准备一个隐私空间,只要保证作答时每个人相互独立即可。

再准备一个纸箱和两个不同颜色的小球。

在一个隐私空间中,让参与者自己从不透明箱子中摸取一次小球,记住小球的颜色并放回,整个过程中仅参与者自己知道小球颜色,然后填写问卷作答。

问题设置

为了准确性的提高,问题设置一般为两个为宜,其中一个问题必须为非敏感问题,并且这个问题的概率容易知道,可由大数定律支撑,另一个问题是你真正需要数据的敏感问题

如果你想调查大学生考试作弊的问题,可以这样设置问卷卡:

这样一来,不管通过其他途径不小心知道了这张卡是你写的,你也可以跟别人解释自己摸到的是红球,做的是问题一,因为除了你自己,没有人知道你摸到小球到颜色,这样一来,数据的准确型就会上升。

数据分析

最后,当然是如何从中提取有用到信息了,我们利用全概率公式进行分析:

设一共有 n个人 参加问卷调查,卡片上回答 “是” 到有 k个人,现在来分析问题二到数据。

从科学上解释,因为没有任何信息或证据可以证明 红球黄球 哪个球摸到概率更大,所以我们只好认为:摸到 红球黄球 到概率是均等到,即:

\(p\left\{ 摸到红球\right\} = {1 \over 2}\)

\(p\left\{ 摸到黄球\right\} = {1 \over 2}\)

同理,因为没有任何信息或证据可以证明参与者喜欢的人的QQ号末尾数字更倾向于奇数还是偶数,所以我们只好认为参与者喜欢的人的QQ号末尾数字是奇数和偶数的概率是均等的,则有:

\(p\left\{ 回答“是” | 摸到红球\right\} = {1 \over 2}\)

且,

\(p\left\{ 回答“是” | 摸到黄球\right\} = P(欲求)\)

由全概率公式,得,

\(P\left\{ 回答“是” | 摸到红球\right\} + P\left\{回答“是” | 摸到黄球\right\} = P\left\{回答“是”\right\} \)

代入,得,

\({1 \over 2}\times{1 \over 2}+{1 \over 2}\times P ={k \over n}\)

\(\Rightarrow \widehat {p}=2\times \left({k \over n}-{1 \over 4}\right)\)

即可估计出考试作弊人数的比例 \(\widehat {p}.\)

[注]:

问题一的提问质量决定了数据误差的大小,所以尽可能的选取概率已知或易知的事件。

Haoning

Published byHaoning

honey of Scenery Architecture

No Comments

Post a Comment