返回列表 回复 发帖

[推荐]麻烦的统计学

本文来自:6sigma品质网  www.6sq.net     作者:立尽斜阳     点击943原文:http://bbs.6sq.net/viewthread.php?tid=16902
M:吉斯莫先生有一个小工厂,生产超级小玩意儿。
M:管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。工厂经营得很顺利,现在需要一个新工人。
M:现在吉斯莫先生正在接见萨姆,谈工作问题。
吉斯莫:我们这里报酬不错。平均薪金是每周300元。你在学徒期间每周得75元,不过很快就可以加工资。
M:萨姆工作了几天之后,要求见厂长。
萨姆;你欺骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。平均工资怎么可能是一周300元呢?
吉斯莫:啊,萨姆,不要激动。平均工资是300元。我要向你证明这一点。
吉斯莫:这是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。总共是每周6900元,付给23个人,对吧?
萨姆:对,对,对!你是对的,平均工资是每周300元。可你还是蒙骗了我。
吉斯莫;我不同意!你实在是不明白。我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资。
萨姆:每周100元又是怎么回事呢?
吉斯莫:那称为众数,是大多数人挣的工资。
吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。
萨姆:好,现在我可懂了。我……我辞职!


统计学的解说可能是极富逆论性的,常常被完全误解。关于吉斯莫工厂的故事揭示出,误解产生的一个共同根源是不了解平均数、中位数(中值)和众数之间的差别。

“平均”这个词往往是“算术平均值”的简称。这是一个很有用的统计学的度量指标。然而,如果有少数几个很大的数,如吉斯莫的工厂中少数高薪者,“平均”工资就会给人错误的印象。

读者还可考虑一些类似的引起误解的例子。譬如,报纸上报道有个人在一条河中淹死了,这条河的平均深度仅只2尺。这不使人吃惊吗?不!你要知道,这个人是在一个10多尺深的陷坑处沉下去的。

一个公司可能报告说它的策略是由股东们民主制订的,因为它的50个股东共有600张选票,平均每人12票。可是,如果其中45个股东每人只有4票,而另外5人每人有84张选票,平均数确实是每人12票,可是只有那5个人才完全控制了这个公司。

还有一个例子:为了吸引零售商到一个城里来,商会吹嘘道:这个城市每个国民的平均收入非常高。大多数人看到这个就以为这个城的大多数市民都属于高收入阶层。可是,如果有一个亿万富翁恰好住在该城,其他人就可能都是低收入的,而平均个人收入却仍然很高。

统计学的报告有时甚至更加使人糊涂,这因为有时“平均”这个词不是指算术平均值,而是指中值或众数。中值(中位数)是按大小顺序排列的数值表中中心位置对应的数值。如果表中数值有奇数项,则中值就简单地是中间项的值。如果有偶数项,中值往往取中间两项的算术平均值。

中值对萨姆来说比算术平均值重要,但就是中值也使人对这个工厂的工资情况得出歪曲了的印象。萨姆反正要知道的是“众数”——表中段常出现的数。在这里,众数是发给工厂中数目最多的人的工资数。有时候这叫做典型情况,因为它比其他任何情况出现次数都多。在上面最后一个例子中,那个城里一个典型家庭代表收入为众数的家庭,它也许很穷,但由于有少数亿万富翁,这个城的平均收入也还非常高。
M:统计资料表明.大多数汽车事故出在中等速度的行驶中,极少的事故是出在大于150公里/小时的行驶速度上的。这是否就意味着高速行驶比较安全?


M:绝不是这样。统计关系往往不能表明因果关系。由于多数人是以中等速度开车,所以多数事故是出在中等速度的行驶中。


M:统计数字还表明,在亚利桑那州死于肺结核的人比其他州的人多。这是否就意味着亚利桑那州的气候容易生肺病?


M:正好相反。亚利桑那的气候对害肺病的人有好处,所以肺病患者纷纷前来,自然这就使这个州死于肺结核的平均数升高了。


M:有一个调查研究说脚大的孩子拼音比脚小的孩子好。这是否是说一个人脚的大小是他拼音能力的度量?


M:不是的。这个研究对象是一群年龄不等的孩子。它的结果实际上是因为年龄较大的孩子脚大些,他们当然比年幼的男子拼得好些。


这三个片断着重说明了,在你听到一种统计关系时,切勿轻率地对其因果关系作结论。下面再举几个例子;

1)常常听说,汽车事故多数发生在离家不远的地方,这是否就意味着在离家很远的公路上行车要比在城里安全些呢?不是,统计只不过反映了人们往往是在离家不远的地方开车,而很少在远处的公路上开车。

2)有一项研究表明其一个国家的人民,喝牛奶和死于癌症的比例都很高。这是否说明是牛奶引起癌症呢?不!这个国家老年人的比例也很高。由于癌症通常是年龄大的人易得,正是这个因素提高了这个国家癌症死亡者的比例。

3)一项研究表明在某个城市心力衰竭而死亡的人数和啤酒的消耗量都急剧升高。这是否表示喝啤酒会引起心脏病发作?不!两种情况的增加是人口迅速增加的结果。若按同样的理由,心脏病发作还可见归咎于上百个其他因素,如咖啡消耗量增加,嚼口香糖的人增多,玩桥牌更加盛行,更多的人看电视,等等。

4)一项研究显示出,欧洲某个城市的人口大量增加,同时鹳鸟窝也大量增加。这是否就支持了鹳鸟送来婴儿这一信念?(欧洲有一种说法,称婴儿是鹳鸟送来的,常用鹳鸟来临表示婴儿降生)。不!它反映的事实是这个城市内的房屋增多,鹳鸟就有更多地盘来筑窝了。

5)最近一项研究显示,大多数杰出的数学家是大儿子。这是否意味着头生子比以后生的儿子数学才能高些?不!这只是简单地反映出一个事实:大多数的儿子是头生子。

这可以引起一些有趣的课堂活动:

1)学生们是否做过一项调查?看他们年级的男孩子是否多一半是大儿子?或者对女孩子作了调查,是否多一半是大女儿?

2)请你们考虑100个有两个孩子的家庭的情况。男孩(或女孩)是大儿子(或大女儿)的比例是多少?(答案:3/4)(注意:一儿一女时,儿子和女儿都算老大)。当100个家庭,每家有三个孩子时,计算大儿子(或大女儿)的比例。(回答7/12)。不用说,在只有一个孩子的家庭,这个孩子总是老大。

同一性别的孩子中,老大的比例显然随家庭中孩子的多少而变,不过对多数家庭而言,这个比例都大于1/2。

上述例子也许能启发大家找出其他一些统计论述的实例,证明统计学论述在联系到因果关系时很容易建成误解。现代的广告,尤其是很多电视的商业广告正是以这种统计误解为其根基的。
==========很多人在碰到一位陌生人,尤其是在远离家乡的地方碰到一个生人,而发现他与自己有一个共同的朋友时,他们都会成到非常惊讶。在麻省理工学院,由伊西尔领导的一组社会科学家对这个“小世界悖论”作了研究。他们发现,如果在美国随便任选两个人,平均每个人认识大约1000个人。这时,这两个人彼此认识的概率大约是1/100000,而他们有一个共同的朋友的概率却急剧升高到1/100。而他们可由一连串熟人居间联系(如上面例举的二人)的概率实际上高于百分之九十九。换言之,如果布朗和史密斯是在美国任意选出的两个人,上面的结论就表示:一个认识布朗的人,几乎肯定认识一个史密斯熟识的人。

最近心理学家斯坦利·米尔格拉姆用一种方法逼近小世界的问题,学生们很容易试一试它。他任意地选择了一组“发信人”,给每一个人一份文件,让他发给一个“收信者”,这个收信者是他不认识的,而且住在这个国家另外一个很远的地方。做法是过他把信寄给他的一个朋友(是一个他没有深交的朋友),也许他很可能认识那个收信者,这个朋友再接着发信给另一朋友,如此下去,直到将文件寄到认识收信者的某人为止,米尔格拉姆发现,在文件达到收信者手中之前,中间联系人的数目从2到10不等,其中位数是5。当你问别人这到底需要多少中间联系人时,他们多数猜想大约要100人。
======随机事件以各种不同形式“成群”出现是熟识的现象,已经有很多关于统计学上称为“成群理论”的书。π中连续7个3就是随机成群的例子。如果你不断抛掷一枚硬币,或者老是旋转轮盘赌的圆盘,记下结果,你就会发现有时竟会一连串出现很长的同样结果。

密执安大学的一位工程师穆尔发现,有一个证明事件成群的惊人实验,你不妨试一试。穆尔因该实验使用了大量糖果,就称之为“糖果花纹”。这种糖果是一种制成球形的上了色冰糖、或球形彩色水果糖。取相当数量的红色球糖,相当数量的绿色球糖,将两种同样数量的糖放入玻璃瓶中。不断摇这个瓶子,直至两种色糖完全混合均匀为止。

注视瓶子的一边。你大概估计会看到两种色糖已均匀打散了,可是你看到的图案都是不规则的,大片红糖图案中点缀着许多小群的绿糖,且二者总面积相等。图案是如此出人意料,甚至数学家在乍看到时也会相信,大概有某种静电效应使得一种颜色的球糖粘住另一领色球糖。实际上起作用的是偶然性。花纹是随机成群的正常结果。

如果你们不愿相信这一点,你们可以用一张制图纸产生出同样的花纹。画一个20×20的方格图。用红绿二色来填每一小格,方法是用抛掷硬币来选颜色。在400个小格都用颜色填满时,你将会看到类似上述糖果瓶边所出现的那类图案。

成群过程中往往有一些非数字的因素。如果小汽车在高速公路上随机地分布着,我们从直升飞机上往下看,就会觉得这些汽车是成群结队的,但是实际上成群的原因远不能用偶然性来解释,因为司机一般不愿意老按同样的速度开车,当前面有很长距离没有汽车时,他们加大马力快开起来。地图上城镇的位置,下雨天接连不断,草地上三叶草、海蓬子等成块,除此以外还有很多其他成群事例都超过用偶然性可说明的程度。你可以试一试找出其他成群例证来说明有些是纯属偶然的原因,有些则是非偶然的因素造成的集群。
=======
先拿一副扑克牌,使它黑红相间。


M:把这副牌分成两叠,要让每叠牌的最底下那张的颜色互不相同。


M:现在将两叠牌洗到一起。


M:从这叠洗过一次的牌上部一对一对地拿牌。不管你原先是怎样洗牌的,你拿的每对牌都是一红一黑!


这个不寻常的纸牌把戏是一个实例,说明一种潜在的数学结构会怎样进入随机集群之中,并产生看上去似乎神秘的结果。魔术师都知道这是吉尔布雷德原理,是数学家兼业余魔术师诺尔曼·吉尔布雷德在1958年发现的,自那以后根据这一原理就引出了几百种巧妙的扑克把戏。

下面是对这一原理的作用机制的一个非正式的归纳证明。这副黑红相间的牌分成两叠后须两张底牌一黑一红。在洗这两叠牌时,第一张牌离开拇指落下贴在桌面后,左右手中两叠底牌就是一色的了,这两张牌都与已落下的那张牌颜色不同。往后无论这两张底牌落下哪张都与桌上那张构成颜色不同的一对。现在手中的牌又与还未落下任何一张牌时的情况一样。剩下两叠牌的底牌颜色不同。不管哪张牌落下,手中剩下的两张底牌均与之不同色,故接着落下的第二对牌也必然是颜色不同的。依此类推可知余下的牌将反复出现上述现象。这是向学生介绍用数学归纳法证明问题的技巧的极好方法。

你可以把这套把戏在你朋友面前玩一玩,不过你要事先把扑克牌弄成红黑相间再开始。让一位朋友把这副扑克从上面一张一张往一边拿,使拿过来的叠成一叠,数到26张时便停止(这样做就可以保证底下的两张牌颜色不同)。现在让他把两叠牌洗到一起。你把“洗过”的这叠牌放到桌子下面,使谁也看不到牌,包括你也看不到牌。你这时就可以说你能用手指摸出牌的颜色来,并且把牌一对一对地亮出,使每对牌都是一红一黑。自然,你只不过是从这副牌的上面一对—对取牌就行了。

学生们一定会对这套把戏感到好奇,急于想知道这个原理是否能推广到产生其他把戏。可以让他们试试下面的做法。把四种花色的牌按一适当顺序排好,例如,黑桃、红心、梅花、方块;黑桃、红心、梅花、方块;黑桃、红心、梅花、方块;等等。从上面开始拿牌,拿出的叠成一叠,到大约26张为止(是否严格26张没关系!)。这种拿法正好使黑桃、红心、梅花、方块的次序颠倒。现将两叠牌洗到一起。然后从这叠牌上面每四张一取,则每四张牌的花色必然互不相同!

第二个实验,你可以先将一副牌分成四叠,每叠的次序是A、2、3、4、5、6、7、8、9、10、J、Q、K,而不管它们花色是否相同。像上面几次一样拿牌和洗牌。从上面取13张牌,每一手则仍然是从A、2、3一直到J、Q、K所有点数都有的牌。

最后一个实验,用两副牌,使一副牌的顺序与另一副完全相同,再将其中一副放在另一副上面,然后从上面一张一张地取牌,每取一张就放在前一张上面,直到大约52张时为止。把两副牌洗到—起,然后将这104张牌严格分成两份。

这时每一份正好是一副牌。
=======
M:罗尼哈特小姐——一位统计员——独自在家中坐腻了。

罗:但愿我能认识一个未婚的男子。我想要加入一个为单身人组织的小组。


M:罗尼哈特小姐加入了两个这种小组。一天晚上,两个小组都在“悖论俱乐部”举办联欢会。一个组在东厅集会,一个组在西厅集会。


罗:有些人蓄着胡子,有些人没有蓄:有些人放荡不羁,有些人循规蹈矩。今晚,我想认识一个风流潇洒的小伙子。我是不是应该找留胡子的人呢?


M:罗尼哈特对东厅的人作了一番统计研究:她发现,留胡子的人中风流人物的比例是5/11或35/77。不留胡子的人中,风流人物的比例小一些,是3/7或33/77。


罗:所以,如果我参加东厅的联欢会,我就会结识留胡子的人。


M:她对两厅组的人作的统计是类似的。留胡子放荡不羁的人占84/126。这要大于没有胡子的风流人物比例81/126。


罗:多简单呀!不管我参加哪个组的联欢会,我只要找留胡子的,就比较容易结识风流潇洒的人物。


M:当罗尼哈特小姐到达“逆论俱乐部”时,这两个组已经决定联合举行联欢了。所有人都到北厅去了。


罗:现在我怎么办?如果两个组中都是留胡子的人多数使我满意,那么现在还应该是留胡子的人适合我要求的机会多些。不过,为保险起见我最好还是把联合集会的人核对一下。


M:当她作完这个新的图表时,她大吃一惊。比例改变了。现在要对上她的心思最好是找不留胡子的人!


罗:我得改变我的策略。可我还是不明白,怎么会成这样?


这个异常很容易用扑克牌来模拟。红牌表示风流人物,黑牌表示刻板人物。牌的背面用x表示留胡子的人,没有x表示不留胡子的人。

在五张红牌和六张黑牌背面标上x。在这些牌中加上三张红牌和四张黑牌,上面没有标x。总共是十八张牌。它们代表东厅的人。

把这十八张牌洗过,使之背向上摊在桌上。如果你想使你拿到红牌的机会最大,你应该拿有x符号的还是没有x符号的?很容易算出各自的比数,为了拿到一张红牌,你最好拿有x符号的牌。

在西厅的人用同样的方法模拟。在六张红牌和三张黑牌背面标上x。在这些牌中另加背面没有x的九张红牌和五张黑牌。总共是23张牌。洗牌后再摊放桌上。同样,很容易证明,如果你想拿到一张红牌,你拿有x符号成功的机会较大。

现在把两套牌合成四十一张的一套。洗牌后摊开。使人很难相信,但你要是计算一下就会相信,如果你想拿到—张红牌,这时你选没有x符号的牌比较容易成功!

当统计学家分析像药物试验结果这类数据时就会产生上述那样的悖论。比如,让牌表示参与两种研究试验的人。让x表示服用药物的人,没有x的牌表示服用安慰药(无实际药效)的人。红牌表示情况好转的人,黑牌表示情况没有变化的人。如果分开来分析,每一个试验均表明药物比安慰药有明显好的效果。可是当两个试验结果合到一起时,分析却表明安慰药有明显好的效果!这个逆论说明,要设计出一种试验,使其统计分析结果总是可信的有多么困难。
深受启发,谢谢!
好东东啊!
收下了……
…* ^_^ *… 雪花飘飘醉 …* ^_^ *…
不要光看啊,说点啥。三楼的例子对我打击太大了。怎么办呢?
???
有空找副牌试试啊。。。
好累脑袋啊!!
闭关顿悟中!

不错,对我很有帮助,谢谢

很不错的故事,把枯燥晦涩的统计学讲得如此生动,建议加分。这个故事可以作为统计概率的启蒙课内容。
好,解释通俗易懂,很受启发!{W {W {W {W
先支持一下,有空回来慢慢看!!
左手拥有一堆蛋,.右手拥有一堆蛋.地上还有一堆蛋.伸手再取一堆蛋.结果所有的蛋都洒满了一地.
好东西,谢谢楼主了。谢谢,收藏。
返回列表