最近一些被拐卖妇女案例的曝光引起了全社会的震撼。大家都在提问,为何这些情况还在发生,这些被拐卖妇女还没有被及时解救,还有多少类似情况没有被曝光出来?
这种情况说明中国在立法、行政各方面有很大的制度改进空间。例如罗翔老师提出的“买卖应该同罪”就是一个很值得考虑的观点。另一方面,目前不论中国还是其他国家,对于解救被拐卖妇女儿童的做法一般是先有家属举报,明确失踪人口的各种信息,然后顺藤摸瓜进行寻找。这种寻找的效率经常不高,比如失踪人口可能被拐到离当地很远的所在,造成线索断裂。也就是说,明知此人大概率被拐卖,但就是找不到。这在统计学上常被称作第一类失误(type I error)。
很自然的,大家就会考虑,为什么不逆向思维,另辟蹊径,从另一端出发,靠社会举报提供线索来解决问题呢?目前发达的网络和社交媒体技术又让这种方法很容易操作:每个人都观察自己身边的妇女有谁像是被拐卖的,一旦发现疑似,马上将有关线索提交到统一的网站,并由公安机关展开调查。比起传统做法,这个方法的优点似乎显而易见:解决了人口被拐到远处造成线索断裂、侦查执法困难的问题。假设被拐卖妇女都会表现出某种异常,那么一番筛查下来,她们都会被当地热心公民发现,由当地公安机关近距离快速解救。还可以将购买人口的犯罪分子迅速抓获归案。用统计学的术语概括,这种办法下,第一类失误可以下降到约等于零。
但事实上这个做法以前不是没有试过。大概10年前民间就自发搞过一个“随手拍解救被拐儿童”行动。当时大家认为被大人带着沿街乞讨卖艺的儿童很多都是被拐卖的。既然如此,何不看见了就去拍个照发到微博上并敦促公安机关进行调查,做DNA鉴定?想法是好的,也搞起来了,但之后出现的情况是,没听说找到了什么被拐儿童,反而造成了大量对无辜人士的骚扰。所以最后没搞下去。
那次失败提示我们举报筛查法的问题所在:试图降低漏网率,其代价是大大提高了冤案率。在统计学上,这叫第二类失误(type II error):把非被拐妇女当成了被拐妇女。
第二类失误的可能性和事件稀有率有关。在“稀有事件检测”(rare events detection)时,无论你认为自己的办法识别度有多高,但如果要识别的东西总比例很低,则你识别出来的群体中基本都是假的。值得注意的是,这里说的“总比例很低”,“稀有事件”,是指数学上的标准,而不是指我们生活中使用的伦理判断标准。例如数学上可以定义发生率低于百分之一的事件属于低概率稀有事件,但从伦理上看,如果这类事件后果极其严重,那么我们能接受其发生的概率可能更低很多,百分之一的比例就太高了,必须进一步大大降低。例如,数学上可以定义,青年人得癌症属于“稀有事件”,这不表明青年癌症不值得重视,只是表明筛查难度大。凶杀案也是类似的例子。
估算一下被拐卖妇女的总规模。网上能查到近年来妇女儿童被拐卖立案数字的情况:https://www.sohu.com/a/470920378_161795 。97年以来,每年最低两千多,最高两万多,平均8000人,但是这里没有把妇女和儿童分开,假定妇女占一半,则约4000人。如果这就是每年被拐卖妇女的规模,那么过去30年形成的总规模约10万人出头。全国已婚妇女按照五亿人估计,相当于其中万分之二是被拐卖的。考虑到妇女被拐卖后无人报案或者公安机关失职不立案的可能,这个数字或许偏小,干脆假定真实规模是其十倍,即千分之二。这符合“稀有事件”的数学定义。
假定参与社会举报解救行动的公民,看到真实被拐卖妇女,全都能成功辨认并提交线索。但看到一名并非被拐卖的妇女,有多大概率会错当成被拐妇女呢?这个数字当然越低越好,值得计算的是应该低到什么程度才有可操作性。先假定只有10%的这类错判。那么数学计算不难得出,社会举报行动提供的线索中,大约98%都是无效错误的。10%的错判比例已经是个很低的估计,因为真正参与这项行动的公民并未受过有关训练,且更关心的一定是不要漏报线索,而不是误报线索。且不说会有人不负责任的随意和恶意举报。
我们当然希望公安机关对于公众提供的线索都进行追查,否则这项行动就毫无意义。那么一旦线索是错误的,可能有的后果将包括:
1. 骚扰和惊吓到无辜人士。根据错误线索,警察对私人住宅破门而入“解救被拐妇女”,并带走家属进行拘留和审讯。 
2. 摊薄警力,影响到对真正有效线索的追查。
3. 对无辜人士的骚扰造成舆情反弹,反而影响到公民对反拐卖事业的重视和支持。
考虑到这些后果,98%的无效线索比例是不可接受的。假定我们想把这个比例降低到90%,这也不令人满意,但数学计算表明,这就需要公民提供线索时的错判率降低到百分之二,已经很不现实了。再假定大致可接受的错误线索比例是50%,则公民的错判率必须降到千分之二,这是根本不可能的。
而且上面的计算还低估了事情的难度。比如被拐卖妇女的规模如果小于千分之二,则有效筛查难度会成比例加大。
这就是为什么目前在侦破拐卖妇女儿童案件时采用传统的有人报案再根据线索追查法,而不是根据社会举报进行的筛查法。因为传统办法能够有效降低误报率(或者第二类失误),而这是“稀有事件检测”中最最关键的。同样道理,要抓杀人犯,先得看到尸体(还得法医鉴定是可疑的),然后再按线索去抓,而不能全社会直接筛查谁可能曾经杀过人!
“稀有事件检测”是实际生活中出现极其广泛的一类数学问题。比如社交媒体向用户推荐新闻、视频等都可以归结为此类:毕竟在全部新闻或视频中,每个具体用户真正感兴趣的都只是其中很小一部分。再比如金融中的非法交易或诈骗行为检测(fraud detection)也属此类。当年有本特别流行的经济学科普读物叫“魔鬼经济学”,讲如何用统计、机器学习方法解决经济和社会实际问题。其中有一个故事声称,伦敦金融业的一些统计学工作者(就是所谓‘矿工’),成功做到了从银行的海量交易(transaction)数据中提取关键特征(‘feature’),找到恐怖分子开设的账户——当然,因为“国家安全”方面的考虑,作者不能透露这个特征到底是什么。
当时读到这一段时,真是佩服的五体投地。但后来自己真的从事了涉及稀有事件检测问题的工作,每天和AUPR之类的概念打交道后,就理解到这里面的难度,并明白过来,那个作者一定是在吹牛。
那么到底如何才能解决非法人口交易问题呢?首先不要低估这件事本身的难度,认为有什么可以一蹴而就的灵丹妙药。然后还是要从失踪人员家属报案提供线索进行侦查的传统做法出发并进行加强。例如增加对该项工作的经费和警力支持。再比如设立如FBI那样全国统一领导独立于地方的机构负责该类问题,这样就可以有效绕开地方保护主义的困扰。罗翔老师所提的买卖同罪法则也合理,我看不出为何这会如某些人所说的不符合中国国情而造成反作用。一位朋友认为,最终,该问题的彻底解决可能还是要靠中国城市化进程的进一步推进,瓦解乡村中传统宗法社会的最后残余。希望这一天早日到来。
继续阅读
阅读原文