全集分解思想调查敏感话题的方法

Posted on 2018年11月18日2022年3月31日笔记

在调查敏感话题的时候，如果你不给调查对象足够的隐私保护，你必然不会得到敏感问题的正确数据，而这种隐私保护，你承诺的再好，保护的再好，对于陌生人来说，也依旧不能够给予你的信任，不会告诉你真实情况。所以为了能够较准确的获取敏感问题的数据，使用 “全集分解” 思想是一种不错的估计方法。

类似于以上众多的涉及隐私的问题，就算是不记名调查，也依然没有多少人愿意开诚布公。绝大多数做过弊的人不会告诉你自己做过弊；恋爱中的渣男必然也不会告诉你自己有多手准备。所以，利用 全集分解思想 可以较为准确的估计此类敏感话题。

在概率论以数理统计中，全集分解的思想主要用在二维随机变量，一个是连续，一个是离散，且独立的情况。

我们的调查对象是独立的个人，是离散型的模型，并且每个人相互独立，故可以使用全概率公式。

P\left( B\right) =\sum ^{n}_{i=1}P\left( A_{i}\right) P\left( B | A_{i}\right)

操作比较简单，准备一个隐私空间，只要保证作答时每个人相互独立即可。

再准备一个纸箱和两个不同颜色的小球。

在一个隐私空间中，让参与者自己从不透明箱子中摸取一次小球，记住小球的颜色并放回，整个过程中仅参与者自己知道小球颜色，然后填写问卷作答。

为了准确性的提高，问题设置一般为两个为宜，其中一个问题必须为非敏感问题，并且这个问题的概率容易知道，可由大数定律支撑，另一个问题是你真正需要数据的敏感问题。

如果你想调查大学生考试作弊的问题，可以这样设置问卷卡：

这样一来，不管通过其他途径不小心知道了这张卡是你写的，你也可以跟别人解释自己摸到的是红球，做的是问题一，因为除了你自己，没有人知道你摸到小球到颜色，这样一来，数据的准确型就会上升。

最后，当然是如何从中提取有用到信息了，我们利用全概率公式进行分析：

设一共有 n个人 参加问卷调查，卡片上回答 “是” 到有 k个人，现在来分析问题二到数据。

从科学上解释，因为没有任何信息或证据可以证明红球和黄球哪个球摸到概率更大，所以我们只好认为：摸到红球和黄球到概率是均等到，即：

p\left\{ 摸到红球\right\} = {1 \over 2}

p\left\{ 摸到黄球\right\} = {1 \over 2}

同理，因为没有任何信息或证据可以证明参与者喜欢的人的QQ号末尾数字更倾向于奇数还是偶数，所以我们只好认为参与者喜欢的人的QQ号末尾数字是奇数和偶数的概率是均等的，则有：

p\left\{ 回答“是” | 摸到红球\right\} = {1 \over 2}

且，

p\left\{ 回答“是” | 摸到黄球\right\} = P(欲求)

由全概率公式，得，

$P\left\{ 回答“是” | 摸到红球\right\} + P\left\{回答“是” | 摸到黄球\right\} = P\left\{回答“是”\right\}$

代入，得，

{1 \over 2}\times{1 \over 2}+{1 \over 2}\times P ={k \over n}

\Rightarrow \widehat {p}=2\times \left({k \over n}-{1 \over 4}\right)

即可估计出考试作弊人数的比例 $\widehat {p}.$

[注]：

问题一的提问质量决定了数据误差的大小，所以尽可能的选取概率已知或易知的事件。

阅读: 5,563