00's Adventure

心智乐高04 很傻很天真的贝叶斯定理

感谢大家对标题党 00 的宽容,这篇文章的完整标题应该是:很傻很天真 - 但是拥有迷妹万千 - 不黄很暴力 - 十分钟提高智商的贝叶斯定理。

上一篇心智乐高探讨了基本比率谬误(base rate fallacy),有盆友在留言中提到了贝叶斯。懵懂的 00 一时回答不出来,于是心智乐高第四篇,我们严肃正经地来八卦一下特别重要的贝叶斯定理。

等等,为什么我们要去了解一个数学定理……还是统计学定理?

在你点返回、骂辣鸡、愤而取关之前,再看几条对贝叶斯的安利:

  • 一个看上去很傻很天真的定理,却在学术和生活中意外的很强大很好用
  • 你看不见它,它却无处不在,几乎所有需要作出概率预测的地方,它都阴魂不散
  • 是机器学习的核心方法之一
  • 关键时刻可以令你智商上线,用来保命,或者挣得巨额财富

(啊,简直 POI 根妹即视感!)

贝叶斯在生活中真的有用嘛?别着急,00 先代表广大宅男/宅女提一个问题:

我发给女神/男神的微信,只有一半会收到回复,她/他是喜欢我还是讨厌我?我们有发展的可能吗……

然后我们来慢慢解答。

贝叶斯定理的由来

话说 18 世纪 70 年代,有个一个牧师叫 Thomas Bayes,为解决一个「逆向概率」问题写了一篇文章。尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。

所谓「逆向概率」是相对「正向概率」而言。正向概率的问题很容易理解,如“假设袋子里面有 N 个白球,M 个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。但是实际场景中,这个问题往往是反过来的:“如果事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色,我们可以对袋子里面黑白球的比例作出什么样的推测”。

贝叶斯推断与其他统计学推断方法截然不同。它建立在主观判断的基础上,也就是说,你可以不需要客观证据,先估计一个值,然后根据实际结果不断修正。

贝叶斯生前并没有发表他的文章,他的“朋友” Richard Price 在他死后去他的住处揩油,发现了这篇文章,并发表出来。

1812 年,法国人 Pierre Simona 将贝叶斯的理论进一步发展为条件概率,帮助人们在概率相关的决策过程中,通过新获得的观察结果来更正对概率的判断。

贝叶斯定理(Bayes’ theorem)告知我们如何利用新证据修改已有的看法。在事件 B 出现的前提下,事件 A 出现的概率,等于 A 和 B 都出现的概率,除以 B 出现的概率。用公式表示就是:

几个相关概念:

  • 先验概率:在考虑观测数据前,能表达不确定量 p 的概率分布
  • 后验概率:在考虑和给出相关证据或数据后所得到的条件概率
  • 条件概率:事件 A 在另外一个事件 B 已经发生条件下的发生概率,表示为 P(A|B)
  • 可能性函数/似然函数:一种关于统计模型中参数的函数,用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计

这就是贝叶斯定理的含义:我们先预估一个「先验概率」,然后加入实验结果,看这个实验到底是增强还是削弱了「先验概率」,由此得到更接近事实的「后验概率」。

「AM I SICK?」贝叶斯定理的经典用法

假设,有一种叫做「叶贝死」的病,人群中得病概率是万分之一,即 0.0001。然后,有一种测试可以检测你是否患有「叶贝死」病,准确率为 99.9%。你做了一次测试,结果被告知得病了!

然后你的世界坍塌了,把这个不幸的消息告诉家人,开始准备遗嘱,甚至皈依了一个莫名其妙的宗教,好走完最后的日子……

这个时候,你的智商不知道被谁通知上线了,让我们再找回检测报告,看看遗漏了些什么。

逃出生天之图解版

我们知道,每当 1 万人中会有 1 个人患病,这也意味着另外 9999 个人没病。

再来看看检测的准确率。如果真正患病的人去做检查,那么 99.9% 的概率会被诊断出来。如果实际上没有患病的人,会有 0.1% 的概率会被误诊断。于是这 1 万人中,9989 人相安无事,总共有 11 人被诊断为「叶贝死」,但只有 1 人真正患病。

所以,你虽然被告知患病,但实际上真正患病的概率是:1/11 ,约 9%。

逃出生天之公式版

把题目正经描述一下:

已知「叶贝死」的发病率是0.0001,即10000人中会有1个人得病。现有一种测试可以检验患者是否得病,的准确率是0.999,即在患者确实得病的情况下,它有 99.9% 的可能呈现阳性。它的误报率是 0.1%,即在没有得病的情况下,它有 0.1% 的可能呈现阳性。 现在张三的检验结果为阳性,请问他确实得病的可能性有多大?

用贝叶斯定理进行计算,步骤是这样的:

S 表示患病事件,N表示未患病事件,Y表示检验结果为阳性事件。

我们想要计算的是,在检验结果为阳性的条件下,张三确实「叶贝死」的概率:

从题目中找到公式右边的三个变量:

将表格中的值代入上面公式可得

结果为:9%

女/男神到底爱不爱我

正襟危坐这么久,终于可以回到正题胡说八道了。

我发给女神/男神的微信,只有一半会收到回复,她/他是喜欢我还是讨厌我?我们有发展的可能吗……

世界上不知道有多少痴汉,每天在痴痴地等着某个微信好友头像出现新消息提示。每发出一条消息,心中就有一群问题如羊驼般呼啸而过:ta 在忙吗?会不会看不到我的消息?一分钟过去了他还是没有回我的消息,我要不要再等等?刚才那条消息会不会太无聊了啊我自己可能都懒得回我怎么这么蠢啊?不过说不定 ta 今天心情好或者正在无聊地等车呢?不知道其他人给他发消息他会秒回呢还是要等高冷的一小时?哎呀如果 ta 回复了我该说些什么呢?啊啊啊什么时候可以见到 ta?我们都认识这么久了 ta 对我到底有没有意思呢?…………

生活在这些问题中,实在是太可怕了。

自黑党的痴汉们,做痴汉也要做得有极客范。用贝叶斯定理来帮助我们 YY 吧!把羊驼们哄回羊圈,沐浴斋戒,摊开纸笔,写下通往未知和答案的神奇公式:

  • P(喜欢一个人|回微信):回复微信的情况下喜欢一个人的概率
  • P(回微信|喜欢一个人):喜欢一个人时会回复微信的概率
  • P(喜欢一个人):女/男神喜欢一个人的概率
  • P(回微信):女/男神正常情况下回复微信的概率

假设你通过八卦、潜伏、收买人心、纯粹臆想等花式调研,获得了以下情报:

那么计算的结果是:

结论1:女神真难追啊!

结论2:少年你想多了,这概率比 P2P 的投资回报率还低,还是乖乖回家提升自己吧!

结论3:愚蠢的人类,用微信就想推断女/男神的心?有本事约去旅行看看?

注:这部分纯属胡说八道,请勿作为指引!如路遇女/男神,还请勇敢壁咚

你贝叶斯了吗?

贝叶斯定理,其实体现了一种概率观,它利用过往信息来逐渐逼近事件发生概率,这是一种启发式的统计学思考方式。

具有贝叶斯思维的人,并不试图刻画事件本身,甚至也不去假设那类事件是随机的,或者有一个逼近极限的总体概率。而只是从观察者信息补全的角度出发,先从以往经验中总结一个大致结果,再基于这个结果判断下次出现这类事件的概率,每次的结果会不断修正之前的判断,如此往复。这个过程反应的是我们知识状态的情况,而并非试图描述客观世界中事件发生的概率。

人类基因里可以给予我们的直觉只能指导我们如何觅食,躲避天敌,在危险的世界活下来。而一旦涉及到科学范畴,那些原始的直觉就不起作用了。想用更理性的思维分析周遭,就要摒弃固有的直觉,不断通过理解与学习建立新的直觉。

今天,你贝叶斯了吗?

参考资料

kidult00 wechat
扫码关注 00 的公众号
支持原创,五毛钱不嫌少~