说说不能说的话——敏感问题调查

本文选自《中国统计》2021年第3期文章，原文已获出版社和作者授权。

亲爱的读者，如果有来生，你愿意换个性别来生活吗？这个问题是不是有点敏感？如果你觉得不够敏感，还有更加敏感的问题，但我现在不问了，因为我知道你是不愿意回答的。当你默默地读完这篇文章，就会发现有更加敏感的问题在等着你。

你有没有遇到过这样的事，别人想知道而你不想说。敏感问题调查方法就是解决这种情况的方法。通过一种设计让你在不会暴露个人的真实想法或真实状况下，调查者却能够估计你所在群体总的真实情况。如果生产者想了解某些商品或者某项服务的潜在用户数量以便事先安排生产和服务，又或者某企业领导将进行一项决策需要事先了解企业员工的态度，都有可能遇到这种调查需求。

例如，如果调查者想知道人们对婚姻的看法，需要估计已婚者群体对自己婚姻状况满意的比例。或者一个大型企业想了解自己员工对企业的忠诚度，需要知道员工对现在工作满意的比例。或者学校想了解大学生消费支出情况，需要估计大学生消费支出分布或比例。这些问题有一个共同的特性，就是由于问题的敏感性，被调查者往往不愿意把自己的真实想法或者真实情况告诉调查者。我们把这类问题称为敏感调查问题。此时如果采用直接问答的方法可能无法获得真实答案。但是，调查者并不关心每个被调查者的具体情况，而只关心整体的情况或者比例，这样可以设计出一种让被调查者不用暴露自己隐私而又可以估计出整体情况的方法，这就是敏感问题调查方法。

文献里关于敏感问题调查的理论和实践也很多。有调查大学生婚恋观的，有调查城乡居民抑郁情绪的，有调查顾客对商品购买欲望的，有调查酒驾经历的，有调查偷税漏税情况的等等。

敏感问题调查的方案设计和结果分析一般情况下用到的理论并不深奥，往往只用到全概率公式和二项分布均值和方差的有关公式。通过全概率公式得到调查结果的估计式，通过二项分布的有关公式可以给出估计量方差的估计公式和给出数据分析结果。

敏感问题调查方法，往往需要引入一个干扰变量，由于这个干扰变量的存在，使得被调查者能够保护自己的隐私，而调查者却能够估计群体整体比例。根据调查问题的特点，所引入的干扰变量是不同的，对群体情况的估计方法也不相同。但干扰变量一定是一个随机变量，而且它的分布一定是已知的。所设计的方法，既要满足隐私性，尽量消除被调查者的顾虑，又要满足估计的准确性，尽量减少误差提高精度。我们下面根据问题的特点，分别举例加以说明。

我们首先看只有是与否两个答案的调查问题。比如需要估计已婚者对婚姻满意的比例，被调查者需要回答对自己婚姻状况是否满意，答案只有是与否两种选择。当面调查也好，通过网络调查也好，人们往往都不会告知自己的真实想法。这时可以让被调查者找一枚硬币，背着调查人员连续地抛掷两次，抛掷结果也不要告诉调查人员，如果两次都抛出币值一面，则讲真话，否则讲假话。这时，由于调查人员并不知道硬币的抛掷结果，所以并不知道被调查者讲的是真话还是假话，因而也并不知道被调查者的具体的真实想法。但由于硬币的抛掷结果中出现两次比值的比例大约是四分之一，讲真话的比例大约也是四分之一，所以能够据此推导出已婚者群体对自己婚姻满意的比例。可以有很多方法引入干扰变量。一般情况下，干扰变量的取值的不确定性越大，越能够让被调查者放心，但估计量的精度越小；干扰变量的不确定性越小，越让被调查者疑心，但估计的精度越高。设计的时候需要权衡这两方面，使得在给定样本量情况下能够使得估计的精度达到所需的要求。

我们再看看有多个答案的调查问题。比如，一个大型企业的人力资源部要调查员工对企业的满意情况，答案需要四选一：A 非常满意，B满意，C不满意，D非常不满意。这时由于有切身利益，企业员工可能不敢说出自己的真实想法。但人力资源部只要估计出各种答案的比例就行，并不关心具体员工的想法。这种情况下也需要引入一种干扰变量。这时仍然让被调查者找出一枚硬币，背着调查人员连续地抛掷三次，抛掷结果也不要告诉调查人员。如果三次都抛出币值，则讲真话，给出自己真实想法。如果三次都没有抛出币值，则把答案向后移动一个位置，即如果真实答案是A，则选择B；如果真实答案是B，则选择C；如果真实答案是C，则选择D；如果真实答案是D，则要选择A，这相当于把D和A也连在了一起，形成一个圆环。除了以上两种情况之外，则根据第一次是否抛掷出币值把答案向后移动两个或者三个位置。同样的，由于调查员并不知道被调查者抛掷硬币的结果，因而不会知道被调查者移动了几个位置，也不会知道被调查者的真实想法。但由于知道抛掷硬币各种结果的大致比例，从而可以推导出企业员工各种满意程度的比例。随被调查者数量的增加，估计的准确性会越来越高。同样的，干扰变量也可以有多种方法进行设置。

我们最后再看一下答案是连续数值的情形。如果学校想了解大学生消费支出情况或者学生每天用于专业课学习的时间，具体的就是要给出这种连续数值量的分布估计。这时也需要给出一个取多个值的干扰随机变量。比如仍然要取上段的抛掷三次硬币的随机变量。用学生每周学习专业课时间举例。如果学习时间在0小时到4小时之间。我们把学习时间分成相等的四段，每段1小时，即0到1，1到2，2到3，3到4。根据干扰变量的结果，我们把答案保持或者平移一个或多个区间。比如，如果真实情况是2.5小时，而且连续三次抛出币值，则答案不变；如果连续三次都没有抛出比值，则平移一个区间，答案是3.5小时；如果第一次抛出币值，而后两次至少一次没抛出币值，则平移两个区间，答案是0.5；如果第一次没有抛出币值，而后两次至少一次抛出了币值，则平移三个区间，答案是1.5。则可以根据这个结果估计出学生学习时间的分布，同时又保护了学生的隐私。

干扰变量以及回答机制的设置有很多方法，好的方法是既要能够充分保护隐私又能满足估计精度的要求。但简便易行而且具有趣味性的措施往往能够起到事半功倍的效果。如果操作太复杂或者太乏味则可能使得被调查者失去兴趣而拒绝回答。

即使问题设计得再好，也会出现一些不回答的情形，对于这种状况也要事先制定好应对策略。有些不回答如果和调查变量无关，则是可以忽略的。如果有些不回答和调查结果可能相关，则就不能加以忽略，因为这部分不回答的个体包含了对调查结果的有用信息。如果也一样忽略了这部分不回答者，则可能出现估计偏差。

很多敏感问题调查的实际操作中，往往要调查的具有某种特征的对象比例很小，这时要特别注意方法的选取以及对估计精度的计算。通过推导可以得知，增加样本量永远是提高估计精度的最有效手段。

如果除了要了解比例和分布之外，有时我们还需要得出分类或者分层的结果，或者想得到这些比例或分布与某些变量之间的关系，则调查设计和估计方法会更加复杂。例如在婚姻问题调查中，如果除了要研究已婚者群体对婚姻满意的整体比例之外，还要了解这个比例随性别、年龄、收入、地区之间的关系，而样本量又不能足以支撑分类别单独估计的精度时，则需要给出一个合理的调查方案、一个合理的模型以及一个合理的估计方法。

敏感问题调查方法虽然简单，但是一个非常有用的思想方法。无论在经济和商业活动中，还是在人们的日常生活中都有很多问题可以通过这个方法了解事情的真相。有些真相还会关系到全社会的利益，比如某些传染病感染者的比例，这种真相的调查有利于人们采取进一步的措施。我们再次强调，人们关心的不是某个个体的真相，而是群体的比例或者分布的真相。

随着社会的发展，网络和电话调查由于成本较低，越来越被调查者采用。但由于网络和电话调查理论上可以追踪，使得人们往往更加不愿意表达自己的真实观点，这种情况更宜采用这种方法。

读完这篇了文章，问问身边人，如果有两人同时掉河里，你先救谁？请小心啊。

作者的其他文章：

基尼系数二三事

假设检验与反证法

鲜活的统计学

作者简介

房祥忠教授 在北京大学数学科学学院曾任概率统计系主任，中国现场统计研究会理事长，IMS-China主席。现兼任教育部统计学类教学指导委员会主任委员，中国统计学会副会长，全国应用统计专业学位研究生教育指导委员会委员，北京企业评价协会理事长等职。研究兴趣包括:生存分析，可靠性，纵向数据，基尼系数，时空统计，人工智能中的统计方法等。在《中国科学》《JRSP》《Reliability on IEEE》等期刊发表论文50余篇。曾获国防科技奖二等奖（2011）、北京市科技进步二等奖（2002）和教育部第六届高等教育国家级教学成果二等奖（2012）。

敬告各位友媒，如需转载，请与统计之都小编联系（直接留言或发至邮箱：[email protected]），获准转载的请在显著位置注明作者和出处（转载自：统计之都），并在文章结尾处附上统计之都微信二维码。

统计之都：专业、人本、正直的中国统计学社区。

关注方式：扫描下图二维码。或查找公众号，搜索统计之都或 CapStat 即可。

往期推送：进入统计之都会话窗口，点击右上角小人图标，查看历史消息即可。

编辑|李萧纹

继续阅读

阅读原文