西西河

主题:【原创】老马丁胡侃统计之一: 统计概率学科的由来 -- 老马丁

共:💬23 🌺112 新:
分页树展主题 · 全看 下页
  • 家园 【原创】老马丁胡侃统计之一: 统计概率学科的由来

    2007年的最后一天,老马枯坐电脑前,惮精竭力忙备课,顺手发贴骗花好过年呀,好过年!

    受到河里这个老马看不太明白的统计贴的影响,也来凑个趣,胡写个超幼稚的,盘点一下老马的专业技能工具箱,XXXX学,XXXX论和应用统计分析就是老马混饭吃的钳子,扳手和螺丝劈。老早就想和大家聊聊自己关于统计的一些小心得。河里河外高人众多,咱不是专门搞统计的,贻笑大方之言,静候玉制板砖。

    老马瞎侃统计之一: 统计概率学科的由来

    统计学是关于收集,分析和解释数据的学科。一句话,跨学科数字出活。统计学的成立也不过就两三百年的事情,但是它为人类对自然的认识提供一个非常重要的工具:先是天文学,然后是物理学,然后是化学,然后是社会科学,现在是生物科学。更重要的是,直到今天,统计还为全球数千万人提供了养家糊口供房子的饭碗,而且这个饭碗是带有自动添饭功能的。

    统计如何产生的?我的想法是,当人们对生活中的事件数不清也数不明白的时候,甚至是借助当时最先进的计算工具也数不清的时候,数学家们开始建立一套新的系统,引入随机变量这个重要的概念,在概率论的基础上建立了统计学。随机变量的分布让人们对问题的认识不再局限于具体数量的纠缠,而能放在整体和全局上进行。这个想法是很美好,不过呢,咱查了查资料发现不对:咱把人类想太高尚了。

    各种资料表明,统计起源于概率,而概率起源于赌博。人类几千年下来,赌博这种重要的社会经济活动迟早要引起数学家的关注的,窃以为数学家们心里有数,手里有笔,他们在赌场上的表现应该比一般人更好,数学家们也是人嘛。终于到了十五世纪有两个数学家忍不住了。大数学家费马费老QQ另一数学家帕斯卡(无法衡量其级别,不过有个计算机语言以他命名,相必贡献不小),提出一个当时巨难的赌博问题:“现有两个赌徒(他俩?)扔骰子比大小,赌若干局,谁先赢50局才算赢。当赌徒甲赢 30局而赌徒乙赢20局时公安抓赌,赌局中止,两人带着赌本落荒而逃,那赌本应怎样分才合理呢?” 于是他们想呀想,算呀算,开始了有记录的人类对概率问题系统的思考。

    到十七世纪时,让人耳熟目详的名字开始出现了。最先出现的是白努利Bernoulli。雅各布.白努利老师出身于欧洲知名的科学世家-瑞士白家。白老师一开始是以顶级数学家的标准要求自己的,不过处于牛顿牛老师和莱布尼兹莱老师那个伟大的数学时代,咋说呢?他总算马马虎虎的做到了这一点。到了晚年(其实也不很晚,白老师也就活了50岁零8个月),白老师写了个有名的帖子,叫“猜猜看的艺术”( The Art of Conjecture),据说算是人类历史上最早的正式关于概率的文献(之一)。白老师讨论了群众喜闻乐见的上手快见效早的赌博方法:抛硬币猜正反。他提出了计算抛一次和抛多次硬币出现某面概率的方法。在白老师单次抛硬币的研究上,后人形成了最简单最基本的概率分布,该分布就以白老师命名:白努利分布;在白老师多次抛硬币的研究上,后人有了个更大的发现:统计之魂大数定理。大数定理用抛硬币的例子来解释就是,多次抛硬币,正反出现的概率应该趋向于一半对一半。

    点看全图
    外链图片需谨慎,可能会被源头改

    【白努利白老师】

    下一个耳熟的名字是柏松(Siméon Denis Poisson)。柏松先生用以养家糊口的工作是数学家和物理学家。他整出了柏松分布,大意是某个具体时段某些事情发生次数(0,1,2,…)的概率的一个表达式。咱常用柏松分布来做和生活中和时间有关的决策,比如说在一个满的停车场等空位子。咱的办法是挑条lane坐等,而不是转悠来转悠去去。原因嘛,在某一时段里里一个停车场离开出来的车的数目是符合柏松分布的。如果平均下来咱坐等那条lane每3分钟就有一辆车离开的话(这个很合理吧),那么10分钟内白等(无车离开)的概率是较小的:低于5%。

    点看全图
    外链图片需谨慎,可能会被源头改

    【柏松先生】

    下一个知名人士是德国数学家高斯高老师(Carl Friedrich Gauss),这个名字更响亮了。统计课本里常说的高斯分布,其实有个更响亮的名字:正态分布。正态分布概念是由德国天文学家莫伟先提出来的,但架不住推广它的高老师名气大。正态分布是最重要的一种概率分布,我的理解是它是构筑另一个统计之魂中心极限定理的基础。大意是任何概率分布都能和正态分布挂上勾。具体来说就太复杂了,不过不知道这个定理丝毫不影响人生的完整,咱就不解释了。

    点看全图
    外链图片需谨慎,可能会被源头改

    【天才高斯】

    高老师同时也做了许多让概率往统计方向转化的工作。比如说,他推广应用了最小二乘法(Method of least squares),这已经是统计而不是概率了。直到今天最小二乘法都有大量人士人使用,它最普遍的应用形式是回归分析(Regression analysis).

    越扯越远。进入20世纪后,好几个大牛,比如说Ronald Fisher和Andrey Nikolaevich Kolmogorov(柯尔莫哥洛夫),还有Karl Pearson,Henry Scheffé和Jerzy Neyman等一起努力, 终于建立了统计学。还有Bayesian的一伙人,不过他们里面好像没啥大牛人。他们的事迹以后有时间再写吧。

    下接老马丁胡侃统计之二: 生活中的几个概率统计问题

    关键词(Tags): #统计#老马丁胡侃统计#概率元宝推荐:闲看蚂蚁上树,橡树村, 通宝推:springisok,

    本帖一共被 3 帖 引用 (帖内工具实现)
    • 家园 贝叶斯学派

      很重要的学派啊,怎么能说没啥牛人呢,起码贝叶斯本人算一个吧

      • 家园 贝叶斯不能算贝叶斯学派吧

        就好像毛泽东不是尼泊尔的毛游击队领导人一样。

        当然,说贝叶斯学派没啥牛人也不尽然。计算机的老祖宗Alan Turing 就是贝叶斯统计的粉丝。

    • 家园 补充几句

      在古典概率论的发展中,有个叫卡当(Cardano)的数学家也值得提一句。这位老兄既是数学家,又是个大赌徒,有些概率问题是他首先研究的。

      【原创】你说的是伽罗华

      赌博一直都是古典概率论的主要应用场所。桥牌里有大量概率计算,21点也是被MIT的数学家们用概率办法搞定(去年还有电影)。

      高斯除了高斯分布和最小二乘法外,还花了将近10年时间主持汉诺威公国的大地测量,大规模使用了统计方法。

      【原创】勾股定理(八)--- 大地测量

      不过概率论和数理统计在20世纪才真正得以大发展,以后有机会我会写一点。

      • 家园 还真有这回事啊!

        大学时,学过数理统计。上课的老师喜欢说点怪话,比如“这个世界充满了谎言”什么的,我们都挺喜欢他的。

        他说过这么一件事,大约是80年代的时候,北京市组织过一次教学观摩之类的活动。当时他讲了一堂概率论方面的课,一些专家认为这堂课讲的很好,内容非常充实,按理应该能评个奖或者其他的奖励。

        但里面有一个人提出:毛主席说过,“一切知识都是源于三大革命实践”(大意如此,确切来源我也没查到)。这位老师说“概率论起源于赌博”,赌博不能算三大革命实践,所以这么讲肯定不对。

        所以这堂课最后没有得到什么奖。

        好多年的事了,记得不太清楚,看到这句

        赌博一直都是古典概率论的主要应用场所

        又想起这件事。

        • 家园 前几天的一件小事

          赌博一直都是古典概率论的主要应用场所

          “主要”可能有点过了,“重要”恰当些。这句话里,要注意是“古典概率”,大致是二十世纪以前的概率学。事实上,人们普遍认为Cardano和Pascal都是从研究赌博入手,而开始概率这个学科的。古典概率里涉及大量的组合计算,比如我们熟知的Pascal三角形之类的,都是挺有用的,计算机算法学到处都是这类计算。(Knuth的书可以当组合数学的习题集来看)。

          说一件小事儿。几天前,几个师弟通宵打牌,打了大半夜,天还没亮,就坐着喝茶聊天,聊着聊着突然发现刚才的几十付牌里有一种牌型出现的次数不少。哥几个顿时来了兴致,抄起笔来就算起了概率,算了个把钟头算出个结果,又觉得不太对。某位老兄说我编个程算算吧,二话不说就写起了程序。结果打了半夜的牌,又算了半夜的概率,直到天亮。

          我听说后一脑门子的汗,当年Pascal也不过如此吧。。。

        • 家园 闹革命可是把命都赌上去了
    • 家园 迟到的鲜花,多谢老马的科普
    • 家园 马老师写得真好,有点儿像小时候读的物理世界奇遇记了!送花!
    • 家园 报告教授----关于人的名字

      白努利--国内一般好像叫做“贝努利”,

      柏松(Siméon Denis Poisson)---国内叫做“泊松”,

      Bayesian---是不是那个叫做“贝叶斯”的家伙?博弈论相关的“条件概率”是不是这位老兄的杰作?

    • 家园 不大清楚Bayesian在统计学上的地位, 但是

      不大清楚Bayesian在统计学上的地位, 但是现在搞IT的不知道Bayesian都不好意思跟别人打招呼.

      搜索引擎, 垃圾邮件/信息过滤, etc. 应用广泛, 效果又好,我们都用它

    • 家园 送花听课,谢马丁兄介绍。
    • 家园 del
    • 家园 花一个,俺没学过统计,赶上老马科普,正好给自己扫扫盲
分页树展主题 · 全看 下页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河