全集分解思想调查敏感话题的方法
摘要
本文讨论了使用“全概率公式”来准确收集敏感话题的数据。该方法通过确保隐私和减少偏见,让受访者在匿名的情况下回答问题。过程涉及参与者抽取彩色球随机回答敏感和非敏感问题,然后使用全概率公式分析数据,准确估计敏感问题的普遍性。
关键词
全概率公式
问题背景
在调查敏感话题的时候,如果你不给调查对象足够的隐私保护,你必然不会得到敏感问题的正确数据,而这种隐私保护,你承诺的再好,保护的再好,对于陌生人来说,也依旧不能够给予你的信任,不会告诉你真实情况。所以为了能够较准确的获取敏感问题的数据,使用 “全集分解” 思想是一种不错的估计方法。
类似于以上众多的涉及隐私的问题,就算是不记名调查,也依然没有多少人愿意开诚布公。绝大多数做过弊的人不会告诉你自己做过弊;恋爱中的渣男必然也不会告诉你自己有多手准备。所以,利用 全集分解思想 可以较为准确的估计此类敏感话题。
全集分解思想
在概率论以数理统计中,全集分解的思想主要用在二维随机变量,一个是连续,一个是离散,且独立的情况。
我们的调查对象是独立的个人,是离散型的模型,并且每个人相互独立,故可以使用全概率公式。
$$ P\left( B\right) =\sum ^{n}_{i=1}P\left( A_{i}\right) P\left( B | A_{i}\right) $$
具体操作
操作比较简单,准备一个隐私空间,只要保证作答时每个人相互独立即可。再准备一个纸箱和两个不同颜色的小球。
在一个隐私空间中,让参与者自己从不透明箱子中摸取一次小球,记住小球的颜色并放回,整个过程中仅参与者自己知道小球颜色,然后填写问卷作答。
问题设置
为了准确性的提高,问题设置一般为两个为宜,其中一个问题必须为非敏感问题,并且这个问题的概率容易知道,可由大数定律支撑,另一个问题是你真正需要数据的敏感问题。
如果你想调查大学生考试作弊的问题,可以这样设置问卷卡:
这样一来,不管通过其他途径不小心知道了这张卡是你写的,你也可以跟别人解释自己摸到的是红球,做的是问题一,因为除了你自己,没有人知道你摸到小球到颜色,这样一来,数据的准确型就会上升。
数据分析
最后,当然是如何从中提取有用到信息了,我们利用全概率公式进行分析:
设一共有 n个人 参加问卷调查,卡片上回答 “是” 到有 k个人,现在来分析问题二到数据。
从科学上解释,因为没有任何信息或证据可以证明 红球 和 黄球 哪个球摸到概率更大,所以我们只好认为:摸到 红球 和 黄球 到概率是均等到,即:
$$p\left\{ 摸到红球\right\} = {1 \over 2}$$
$$p\left\{ 摸到黄球\right\} = {1 \over 2}$$
同理,因为没有任何信息或证据可以证明参与者喜欢的人的QQ号末尾数字更倾向于奇数还是偶数,所以我们只好认为参与者喜欢的人的QQ号末尾数字是奇数和偶数的概率是均等的,则有:
$$p\left\{ 回答“是” | 摸到红球\right\} = {1 \over 2}$$
且,
$$p\left\{ 回答“是” | 摸到黄球\right\} = P(欲求)$$
由全概率公式,得,
$$P\left\{ 回答“是” | 摸到红球\right\} + P\left\{回答“是” | 摸到黄球\right\} = P\left\{回答“是”\right\}$$
代入,得,
$${1 \over 2}\times{1 \over 2}+{1 \over 2}\times P ={k \over n}$$
$$\Rightarrow \widehat {p}=2\times \left({k \over n}-{1 \over 4}\right)$$
即可估计出考试作弊人数的比例 $\widehat {p}.$
[注]:问题一的提问质量决定了数据误差的大小,所以尽可能的选取概率已知或易知的事件。