西西河

主题:【原创】学习之恍然大悟时刻 -- earthcolor

共:💬26 🌺61 新:
分页树展主题 · 全看 下页
  • 家园 【原创】学习之恍然大悟时刻

    在我的学习过程中,有不少的恍然大悟时刻,有大有小。有一些对自己影响深刻,会常常想起;有一些则比较小,过去就忘了。在开始准备写之前,本来想说“顿悟”,后来有感觉不妥。原因是自己感觉“顿悟”的层次比较高。“顿悟”出自佛教,说人要有悟性。悟了之后,人的理解、层次都会提高到另一个水平。尤其是在一些重大的问题上,更是如此。我要讲的是自己的经历,更多地是自己的一些学习感受,感觉很没有到“顿悟”的层次。于是,退而求其次,换成了“恍然大悟”。现在我拟定的题目,包括以下部分。

    earthcolor:【原创】学习之恍然大悟时刻(1):公理系统之几何

    earthcolor:公理系统(二):经济理论

    earthcolor:【原创】学习之恍然大悟时刻:最大似然法

    earthcolor:【原创】学习之恍然大悟时刻:计算机编程及计算机

    earthcolor:学习成绩和发展

    通宝推:易水,看树的老鼠,
    • 家园 怎么不继续写了?非常好的文章,刚刚看到
    • 家园 学习成绩和发展

      在人生中,我们会面对各种情况。在每种情况下,我们都有多种应对措施(选择,决定)。不同的环境和社会状况,带给我们不同的困难,同时机会也蕴含其中。我们的应对措施(选择)可能会成功,可能会失败。而这种成功或失败的结果,对我们为了会面对的选择影响很大。这一系列的选择,将决定我们人生的轨迹,也就是我们的人生成功与否。

      学习和学习成绩是我们在人生中无可避免地要遇到的,无论学习是专业方面、普通教育、社会知识、或生活知识。谈到学习,通常是指学校的学习或专业知识的学习。广泛的学习可以包括学习一切我们未知的东西。在不同的方面,我们的学习成绩有好有坏。一个阶段学习中成绩好坏,可以影响我们后面在学习中的选择。在成绩好时,我们有成就感,会更有信心继续这方面的学习。成绩不好时,我们会有挫折感。这时,有人会不服输,会下定决心,一定要把这方面学好。有人这时会有别的想法:“这方面学不好,我可以学其他东西嘛。”

      这里,我要谈一个很不错的模型来概括我们学习和选择的过程:增强式学习。增加式学习模型包括环境模拟、系统的状态、可选择的行动方案、方案实施后的回报。在这个模型中,环境模拟是模拟我们周围的环境。系统的状态,是这个模型中参与者的状态。在一定的系统状态下,参与者可以选择不同的行动方案。行动方案实施后,将与环境交互,决定可能的回报。一次行动方案的回报,将改变参与者下次行动方案的选择。经过一段时期的训练,参与者的行动方案可能会固定在他认为最佳的方案。

      如果你对增强式学习没有概念,另外一个例子可能更直接一些:巴甫洛夫对狗的刺激性实验。巴甫洛夫在实验中,先摇铃,再给狗喂东西吃,刺激狗对摇铃的反应。经过一段时间的训练,摇铃时,狗就会分泌唾液,开始想吃东西了。

      在我们的学习中,没有别人来给我们刺激,而是社会、环境在我们学习和选择中,给了我们回报。而这种回报的好坏,对我们不断刺激,决定了我们以后的在不同环境下的反应。

      基于所有人、生物、社会团体以及国家的趋利避害本能,大家都会选择对自己有利的决定。当然,每个决定的影响时效不一样。有人着重于眼前,有人着重于将来。而很多决定的长期影响很难准确预测。一些小的事件,可能在不断的增强式刺激下,决定了一个人的发展轨迹。

      假如有两个不同的小孩,在同样的环境下成长。两个人的智力、情商在小时候没有多大差别。后来小孩甲在一次考试中恰好有他最近复习过的内容,小孩甲考取了好的成绩,并得到了老师和家长的表扬。小孩甲很有成就感。在以后的学习中,小孩甲会更多地重复这个过程:提前复习,考取好的成绩,如此反复,小孩甲的成绩会一直保持很好。

      小孩乙在一次活动中,赚到一些钱,在花钱时,她有喜悦和满足感。这样的满足感,会让她更多地参与同类的活动,去赚更多的钱,有更大的满足感。

      当然,每个人对不同事物的评价是会变化的。不过,那些能为一个人带来满足感的能力,在成长的过程中,是会被不断强化的。强化的结果,是有人在专业学习上有成就,最后做了专家、教授;有人在赚钱的才能上不断强化,最后做了企业家、富豪。

      当然,专业学习好和赚钱并不互相排斥。在学校学习成绩好的人,也可以赚很多的钱;而赚钱多的人,在学校学习成绩也可以很好。但可以肯定的是,赚钱多的人,在赚钱方面的学习成绩是非常好的。


      本帖一共被 1 帖 引用 (帖内工具实现)
    • 家园 好文, 花之. 先顶后看
    • 家园 公理系统(二):经济理论

      公理系统(二):经济理论

      首先声明,自己在经济学方面是一个外行,一直是需要经济扫盲的对象。经济理论的公理系统,哇,话题有点大,自己不可能写得完全。自己可以做的,就是将自己读书的真实感受写下来。抛砖引玉(没有玉,花呀宝呀,也可以!),希望有高人出来为大家(主要帮我)扫盲。

      在现代的经济社会中,大家都无可避免地接触到与经济有关的内容:报纸上、电视里充满了经济增长(衰退)、通货膨胀、金融动态的新闻。可以说,没有哪家媒体的新闻完全与经济无关的。

      长期以来,在看经济新闻时,经常有增加投资的内容。我一直有一个疑问:“为什么增加投资可以增加国民生产总值?”我想,对任何搞经济的、或关心经济的,这都是一个有效的问题。对于一个经济专业的牛人来说,这个问题也许太初级了。但是,对我这样的一个门外汉来说,这个问题却是一个无从找寻答案的问题 – 我不知道从那里去找简洁的答案,又不想去翻大部头的经济学原理。

      这个问题困惑了我好长时间(其实,我只是有这个问题的念头,并没有真正去找答案)。直到去年,我在图书馆里无意中翻到一本书,才基本解答了我的疑惑。这本书是《给讨厌数学的人》,作者是小室直树,翻译者是李毓昭。书前面的主要内容是讲数学的基本概念,最好转到了经济问题。作者讲:经济问题,通过数学分析,都是很容易理解的(我也希望是这样)。作者讲到了最简单的凯恩斯模型,其中作为公理的假设如下:

      (1) 没有外国人

      (2) 没有政府

      (3) 没有时间

      (4) 只有经济人

      对于这些假设,我是这样理解第一点和第二点。如果将地球上的经济看做一个整体,“没有外国人”这一点很容易的,至少现在我们还没有充分的证据证明外星人的存在。同样,“没有政府”也可以从把地球看做一个整体来理解:目前还没有一个机构可以有效地管理全球的经济 – 可以说地球上没有一个统一的政府。

      第三点和第四点我还没有自己的理解(欢迎大家补充)。

      这是我第一次知道经济学也有公理系统。当时的感觉是:“哇,经济学也公理话了啊!”好像这样自己就可以懂经济了一样!!!虽然我不完全明白经济学中的推理,但是看到经济学和自己熟悉的理工科之间有这样相似的公理系统,还是蛮高兴的。如果有人可以介绍一些经济学中从假设到结论的简单推理,将不胜感激。

      根据这些假设和凯恩斯的有效需求原理,可以得出最简单的凯恩斯模型:

      (1) 国民生产总值 = 国民总消费 + 投资总额。简单写为:

      Y = C + I

      这里Y是国民生产总值,C是国民总消费,I是投资总额。

      (2) 国民总消费在国民生产总值中占一定的比例。简单写为:

      C = aY

      这个消费函数说明国民总消费(C)是随国民生产总值成比例变化的。对于不同的国家和一个国家的不同时期,这个消费因子a(或消费比例参数)是不同的(这个影响后面会提到)

      (3) 投资总额不随国民生产总值变化。

      我们可以把(2)的式子代入(1)中,

      Y = aY +I

      (1-a)Y = I

      Y = I / (1-a)

      经过简单的推导,我们看到,国民生产总值与投资总额成比例。根据这个模型,我们可以明白为什么各个国家都要大力吸引投资了,我们也明白了为什么美国会想办法让世界上的投资往美国跑了。这个解释,也正回答了我心中由来已久的疑问。

      根据前面的式子,我们可以看到增加国民生产总值还有一个办法,就是改变消费因子a:在同样的投资和其他条件下,如果a变大了(0<a<1),国民生产总值也会增加。这就是很多专家建议要刺激消费的原因。

      为了增加国民生产总值,各个国家基本上都是双管齐下:既吸引投资,也刺激消费。在这方面,美国很典型:世界其他地方有动乱和战争,会把游资赶到美国去,增加了美国的投资;美国的政策,鼓励了消费,增大了消费因子。中国在提倡扩大内需,也就是要刺激消费,以不同的方式增大国民生产总值。

      最后提个问题,希望有人来解答:如果消费因子a大于1,会出现什么情况?这个假设会不会在现实中出现?谢谢!


      本帖一共被 1 帖 引用 (帖内工具实现)
    • 家园 【原创】学习之恍然大悟时刻:最大似然法

      最大似然法,英文名称是Maximum Likelihood Method,在统计中应用很广。这个方法的思想最早由高斯提出来,后来由菲舍加以推广并命名。

      最大似然法是要解决这样一个问题:给定一组数据和一个参数待定的模型,如何确定模型的参数,使得这个确定参数后的模型在所有模型中产生已知数据的概率最大。通俗一点讲,就是在什么情况下最有可能发生已知的事件。举个例子,假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?

      我想很多人立马有答案:70%。这个答案是正确的。可是为什么呢?(常识嘛!这还要问?!)其实,在很多常识的背后,都有相应的理论支持。在上面的问题中,就有最大似然法的支持。

      在很久以前的一个下午,自己在图书馆看书,书中讲到了同一独立分布(i.i.d., identical and independent distribution),与概率相关。当时已经听说最大似然法很长时间了,最大似然法在不同场合应用的结论看过不少,但自己还没有真正地学习和应用过。突然想到了上面的例子(类似的例子在自己以后的阅读很常见,当时没有意识到自己到底以前看过类似的例子没有),决定自己动手算一算。

      下面会有一些数学,我知道西河比较深,大牛比较多,看了不要见笑。有意见和建议尽管提。

      我们假设罐中白球的比例是p,那么黑球的比例就是1-p。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜色服从同一独立分布。这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,七十次是白球的概率是P(Data | M),这里Data是所有的数据,M是所给出的模型,表示每次抽出来的球是白色的概率为p。如果第一抽样的结果记为x1,第二抽样的结果记为x2,。。。那么Data = (x1,x2,...,x100)。这样,

      P(Data | M)

      = P(x1,x2,...,x100|M)

      = P(x1|M)P(x2|M)...P(x100|M)

      = p^70(1-p)^30.

      那么p在取什么值的时候,P(Data |M)的值最大呢?将p^70(1-p)^30对p求导,并其等于零。

      70p^69(1-p)^30-p^70*30(1-p)^29=0。

      解方程可以得到p=0.7。

      在边界点p=0,1,P(Data|M)=0。所以当p=0.7时,P(Data|M)的值最大。这和我们常识中按抽样中的比例来计算的结果是一样的。

      当时,自己推到完这些,心情很高兴,感觉自己理解了最大似然法。接着想到了连续变量。

      假如我们有一组连续变量的采样值(x1,x2,...,xn),我们知道这组数据服从正态分布,标准差已知。请问这个正态分布的期望值为多少时,产生这个已有数据的概率最大?

      P(Data | M) = ??

      求导,u=(x1+x2+...+xn)/n.这个正态分布的期望值,就是这组数据的均值。在我们的日常生活和工作中,我们经常会用到平均值,这是有道理的,可以用最大似然法来解释。如果数据服从正态分布,这是最可能的数据。

      当我第一次自己推导出这些的时候,心中有一种豁然开朗、恍然大悟的感觉:最大似然法就这样!

      最大似然法原理简单,应用很广。举个例子,这样的情况在生活会经常遇到。假如人们会感染一种病毒,有一种测试方法,在被测试者已感染这个病毒时,测试结果为阳性的概率为95%。在被测试者没有感染这个病毒时,测试结果为阳性的概率为2%。现在,有一个人的测试结果为阳性,问这个人感染了病毒吗?根据最大似然法,如果一个人感染病毒,95%的测试结果会为阳性;而如果这个人没有感染病毒,只有2%的测试结果会为阳性,所以这个人应该是已经感染病毒了。

      最大似然法应用广泛,但是经常会受到一种批评,而且对于这种批评,尤其在数据量比较小的时候,最大似然法的支持者没有很多充分的反驳理由:在最大似然法中,只考虑了由一个模型产生一个已知数据的概率,而没有考虑模型本身的概率。相对应的考虑了模型本身概率的方法,是贝叶斯方法(Bayesian method)。

      在上面测试病毒的例子中,如果我们知道在整体人群中,只有1%人会感染这种病毒,那么,根据贝叶斯方法,这个被测试者只有1/3左右的可能性感染了病毒{1%*95%/(1%*95%+99%*2%)=32.4%}

      在这里,我们看到先验概率对结果的影响很大。

      不过,当数据量比较大的时候,先验概率的影响就会减小。比如,人们在被检测出感染了一个严重的病毒后,一般会去其他医院复查。假如同一个人在三家医院进行了独立的检查,结果都是阳性。那么,这个人真正感染了病毒的概率有多大?在这个人感染病毒时,出现这种检测结果的可能性为95%*95%*95% = 85.7%;而在这个人没有感染病毒时,出现这种检测结果的可能性为2%*2%*2% = 0.000008。根据最大似然法,我们应选择这个人感染了病毒。

      根据贝叶斯方法,这个人感染病毒的概率为1%*95%*95%*95%/(1%*95%*95%*95%+99%*2%*2%*2%) = 99.9%。

      当然,当时自己主要体会了同一独立分布在最大似然法中的要求。在以后的一个应用中,才对“模型已知,参数未定”这一要求有了进一步的认识。

      关键词(Tags): #最大似然法

      本帖一共被 1 帖 引用 (帖内工具实现)
      • 家园 花,一点体会

        iid是统计乃至很多机器学习方法的基础。

        在实际应用中,iid是个很强的条件,往往不能完全满足,所以根据iid导出的方法有时不尽如人意。

        bayesian之所以成功,在于引入先验,而先验表面上和iid似乎有矛盾,事实上不然,个人理解,iid使我们对数据集一无所知时候的基本假设,随着对数据了解的深入,我们应当把这种知识形式化,这就是先验概率。

        关键词(Tags): #学习
        • 家园 我的一点理解

          我的一点理解

          在统计和机器学习中,涉及到三组相关的概念:数据,模型和变量。

          1)数据

          iid是讲数据之间的独立。更确切一点讲,是在给定模型后的数据独立。有了iid,数据分析变得相对简单。我们不必考虑数据点之间的关系,数据的统计特性(sufficient statistics)可以有效表示一个数据集。比如,在前面的例子中,在抽的一百个球中,有七十个是白球。“一百”和“七十”是这个数据集的统计特性,而我们不需要考虑这七十白球是如何在一百次抽样中排列的。

          很多人感觉iid的要求太强。不同的学者提出不同的解决思路。有人提出了exchangeability,这个概念可以在分析中起到和iid相同的效果,但在哲学解释和因果关系的分析中,会有不同。

          另外一种思路,是考虑数据之间的相关性。在这方面,更多的研究是马尔科夫模型及其扩展。马尔科夫模型的假设是,数据在时间序列是相关的。更确切地说,数据在将来时刻的取值,只与当前时刻的值相关,与过去时刻的值无关(这也是所谓的马尔科夫特性)。高阶马尔科夫模型,可以转化为一阶马尔科夫模型,所以一阶马尔科夫模型的研究最多。相应的扩展有状态空间模型(针对连续变量,控制应用中更常见),隐马尔科夫模型(加入了隐变量),马尔科夫决策过程(加入了决策变量),部分可观察马尔科夫决策过程(同时加入了隐变量和决策变量),等等。

          2)模型

          最大似然法是一种根据已知数据求模型中参数的方法。在最大似然法的应用中,没有考虑模型的先验概率。而贝叶斯方法,考虑了模型的先验概率。这样,在我们已有知识可以提供比较接近真实模型概率的先验概率、而数据量不是很大时,贝叶斯方法可以起到很好的效果。当数据量比较大时,模型先验概率的影响就会减弱。

          根据领域知识,我们也可以固定模型中一些参数,这相当于改变了模型的先验概率 – 这些固定参数之外的模型的先验概率为零。

          如果给定了模型的先验概率,我们也可以求单个数据的先验概率。在某些分析中,可能会用到。

          3)变量

          iid谈论的是数据之间的独立关系。相对应的,有一个变量之间的独立关系。根据不同的模型,变量之间的独立关系会有不同。在单纯贝叶斯模型中,给定分类变量,各个变量之间条件独立。这是一个比较简单的模型。复杂一点,是贝叶斯网络,各个变量会在某种条件下独立。

          测试变量之间的相互独立性,是统计里的一个很大问题。在回归分析中,要不要引入一个自变量,通常是通过变量之间的相互独立性分析。这又是另一个问题了。

      • 家园 你的白黑球的例子实际上是大数定理,呵呵
        • 家园 百度了一下

          这里有一个解释

          外链出处

          主要的意思是:大数定理说的是当样本集无限大时,样本集中的各事件的频率以概率1趋近于各事件的真实概率。

          最大似然法是根据已有数据求模型中的参数。样本集可大可小。

          这里可以看出,两者是解决不同的问题。

          如果样本集足够大的话,最大似然法求出的参数和大数定理意义下的极限概率相等。如果样本集比较小,大数定理不适用,但我们依然可以用最大似然法求模型的参数。

          白黑球的例子中数据相对较多,最大似然法求出的结果和大数定理意义下的概率相等。如果只抽两个球去求参数的话,我们就可以看出大数定理不适用了。

    • 家园 【原创】学习之恍然大悟时刻:计算机编程及计算机

      时代不同,环境不同,大家的经历不同。现在的小孩,刚出生就开始用(看)计算机。我上高中的时候,计算机还没有那么普及。在上大学之前,我没有见过计算机。在选大学专业的时候,知道计算机专业不错。有人说,计算机已经发展的差不多了,EE还很有前景。在计算机和EE之间犹豫了一阵,后来选了EE(现在是计算机专业,这是后话)。

      计算机语言篇:到了大学,第一学期有计算机课,Fortran 77. 计算机专业或了解的人士应该知道,Fortran 77有点历史了。没有上课之前,想着计算机很神秘,很聪明,很多问题可以自动解决。带着好奇,开始上自己的第一门计算机课。一开始,讲的是变量格式,程序格式。Fortran 77的格式比较严格,每一行中的第几个字符,表示不同的含义,这是从打孔输入法来的。现在已经很少有人会这样程序了。Fortran自己也都不知改成什么样了。

      学完了变量格式、程序格式,开始讲具体的编程。其中有一个解一元二次方程的例子。在例子中,要先判断能不能开平方,然后再在不同条件下求出方程的解。当时的感觉时,计算机真笨,这个都要我们告诉它,连一元二次方程都不会解?!比想象中的聪明,差远了 - 计算机的聪明,至少要比我强吧。

      认为计算机很笨后,后面上课就一直感觉怪怪的:这是什么笨东西?什么都要我告诉它?还要有固定的格式?那里有传说中的聪明、神奇。大概过了两个月,在一个星期天的上午,去教室自习,把Fortran 77的课本前半部分系统的看了一遍。看完之后,恍然大悟:计算机,对写程序的人来说,它是很笨,你要告诉它一步一步怎么做,它才会按你说的去做。如果有一点含糊,程序就会出错。我们想象中的计算机很聪明,不是对写程序的人来说的,是对用程序的人来说的。如果程序已经写好了,用起来就方便了。比如前面的一元二次方程,写好了程序,以后就不用那么多计算了。

      Fortran语言也不多:赋值语句,条件语句,循环,数组,输入输出。以后学了C语言,看所有计算机语言的基本语句都差不多。当然,玩过N多的"Hello World"程序,各种版本的。计算机语言,对我不再神秘。

      外一篇(计算机):大学之前没有见过计算机,大学开学,学校组织参观,去学校和系里的各个实验室看看。参观中,看见了计算机,高年级学生在用,给我们演示东西。却没有碰到计算机。只记得一个实验室有机器人,好像一个仿人的原型机,当时感觉挺不错的。现在想想还是比较原始。

      开始上计算机课后,有上机实习,可是时间很少,一学期好像只有几个小时。和现在不能比呀。上的是什么机子呢?系里的机房里,有十多台机子,印象比较深的是那种:开机之后是绿屏,只能输入BASIC语言的机子,不知道是苹果还是AT。Fortran应该是在DOS下编译的吧(记不太清楚了)。后面的C语言肯定是在DOS下编译运行的,用的C语言课本却是讲Unix下编程的。

      不过,到这个时候,计算机本身还挺神秘的:里面到底是什么呀?

      后来有机会打开计算机的壳子,看到电源、拔了内存、换了显卡,几个折腾。哦,计算机就这么回事呀。

      大三的暑假,去一家计算机公司打工一段时间,写了一些小程序。回来后,一个高年级的学生(应该是上研究生了)来问:“你去的那家公司的机器如何?硬盘大吗?”我回答:“硬盘很大,有20M。”想想现在,你的硬盘是20G,两天就用完了。装个Windows就要10G了。

      毕业设计的时候,系里的机房有一台新的486,单独一个房间锁起来,可宝贝了。有人要用486,要经过好几层审批。毕业后,国内的计算机慢慢多了起来,486也不那么金贵了。不过,现在如果你有一台新的486,也可宝贝了,当然要单独一个房间锁起来:文物级的宝贝呀。


      本帖一共被 1 帖 引用 (帖内工具实现)
分页树展主题 · 全看 下页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河