经常有人说“概率是毫无意义的事情,如果事情发生了,概率就是百分之百,如果没有发生,就是零”。这样的想法是对概率完全错误的理解。
为了解释概率,我们从赌场坐庄开始。
我们知道开赌场几乎没有输钱的。尽管有人从赌场赢了钱,但是输的人更多。很多人认为是赌场有“赌神”,或者赌场能“出老千”,其实都不是,赌场赢钱的原因在于概率的应用。
换句话说,概率决定了赌场是占便宜的一方。赌客越多,赌场就越不容易输。
我们来玩一个游戏:如果有14张牌,其中有一张是A;现在我来坐庄,一块钱赌一把,如果谁抽中了A,我赔他10块钱,如果没有抽中,那么他那一块钱就输给我了。有人赌吗?
这样的一个赌局,为什么说我占了便宜呢?因为在抽之前,谁也不知道能抽到什么,但是大家可以判断抽到A的可能性要小得多,14张牌中才有一张,换句话说概率是十四分之一,而抽不中A的概率是十四分之十三。概率就是这样一个对未发生的事情会不会发生的可能性的一种预测。
如果你只玩一把,当然只有两种可能:抽中了赢10块钱,没抽中输一块钱。但是,如果你玩上几百几千甚至更多把呢?有的抽中,有的抽不中,几千几百把的总结果是什么样的呢?
数学期望
这是概率上的一个概念,叫做数学期望。可以理解成某件事情大量发生之后的平均结果。
现在我们来看上面的那个例子,抽中的概率是1/14,结果是赢10块钱(+10),抽不中的概率是13/14,结果是输1块钱(-1)。把概率与各自的结果乘起来,然后相加,得到的"数学期望"值是(-3/14):
如果你玩了很多很多把,平均下来,你每把会输掉(3/14)块钱;
如果抽中A赔13块钱,那么数学期望值是0,你玩了很多把之后会发现结果最接近不输不赢;
如果抽中A赔14块钱,那么数学期望值是1/14, 对你有利,大量玩的结果是你会赢钱,我当然不会这么设赌局。
赌场的规则设计原则就是这样,无论看起来多么诱人,赌客下注收益的数学期望都是负值,也就是说,总是对赌场有利。因为有大量的人赌,所以赌场的收支结果会很接近这个值。
比如美国的轮盘赌,38个数随机出,你压一个,压中了赔你35倍,没压中你的钱输掉。其它的赌局规则可能更复杂——比如21点,但是背后的概率原理是一样的,就是赌客的数学期望值是负数。
像我们通常见到的彩票,如果所谓的返回比是55%的话,那么花一块钱的数学期望是赔掉0.45块。无论是赌场还是彩票,幸运儿的产生必定伴随着大量献爱心的人。赌场和彩票生意兴隆的基础,是每个人都认为自己会是那个幸运儿。
数学期望是作理性决策的基础
我们做任何一项投资,做任何一个决定,都不能只考虑最理想的结果,还要考虑到理想结果出现的概率和其他结果及其出现的概 率。否则,如果只考虑最理想的结果,大家都应该从大学里退学--从大学退学的最理想结果是成为世界首富,那个叫比尔盖茨的家伙。
概率问题的关键是随机性,比如扔一个硬币,谁也无法预测是正面还是反面。同样,掷骰子、摇奖也是。
有个最搞笑的职业叫“彩评家”,号称分析彩票号码的规律, 预测下一期最可能的号码。
电视里的“彩评”节目往往是专家侃侃而谈,主持人做兴致盎然崇拜状。
经常听到的话是“这几个数字前两期出现了,根据概率,下一期 不大可能出现”。
这可以称之为一本正经地胡说八道。按照概率理论,两件不相干的事情都发生的概率是各自发生概率的乘积,所以两件不相干的各自概率为万分之一的事情都发生的可能性是一亿分之一。但是,如果一件已经发生了,那么另一件发生的概率还是万分之一,跟已经发生的事情无关。
只要彩票的摇奖没有丑闻,那 么中奖数字是无法预测的。不管前几期出现了什么号码,下一期的号码仍然是随机的。出现过的数字不会避嫌,没出现过的数字也不受到照顾。
不过观众还是会觉得“彩评家”的“预测”是对的,因为他说不会出现的号码后来确实没有出现。其实这种“彩评家”每个人都可以当——你随便写几个数,说“下一期这几个数不会出现”,再找个神神叨叨的理由,你也就成“大师了”。因为你不管你写什么数字,中彩的可能性都是非常非常小的。
据说概率是起源于赌场的学问,但是它的价值已经远远超出了赌博。
这里举一个很现实的把概率知识转化成经济效益的例子:要在人群中普查一种病,检查方式是抽血检测其中是否含有某种病毒,这种病在人群中的发生率比较低,比如说1%。对于这样的一种普查,成本最高的地方是检测血液,如果能减少血液检测的数量,就能节约大量成本。我们很自然地想到抽每个人的血,然后检测,这样有多少人就验多少份血,简单明了。
为了形象起见,假设有1000万人,那么直接检测的方案是测1000万份血。现在我们换一下思路,把抽来的血两两混合,送去检测,如果检测结果阴性,表明原来的两份血都没问题;如果结果阳性,表明至少有一份血有问题,就把两份都重测。这样也可以确定每个人的带病情况。
这样作的总检测量是多大呢?两两混合之后,要检测500万份,然后结果阳性的那些重测,大概是20万(1000万人的1%是10万人带病,导致20万份血重测),总共检测520万份的样子。实际上还有一部分阳性的样品是混合的两份血都带病,这样实际的阳性结果比10万份还要少。
总之我们看到,检测总数几乎减少了一半,能省很多钱了吧?如果把10份血混一起再测呢?同样的分析,先要检测100万份,加上结果呈阳性的最多10万份混合样品重测——共100万份原始血样需要重测,总共最多检测200万份就搞定了。
在这个例子里,多少份血混在一起最划算,取决于人群中的发病概率,跟要检测的总人数无关。另外一个考虑因素是血样混合之后,病毒浓度被稀释了,是否还能被检测出来。
综合考虑这些因素,运用概率和并不复杂的优化计算,可以精确地算出把几份血样混在一起最省钱而又能完成任务。