西西河

主题:【原创】经济学的经验研究方法 -- Dracula

共:💬86 🌺446 新:
全看树展主题 · 分页
/ 6
下页 末页
家园 【原创】经济学的经验研究方法

过去30年里,经济学的研究重点明显偏移到经验研究,30年前顶尖杂志大多数文章都是理论模型,但是现在经验研究明显占优势。相对应的经济学内对经验研究方法的争论也变得非常激烈。对于行外人来说,这方面的争论由于不涉及具体的经济政策,因此远不象淡水,咸水之间的争论有吸引力。但是对搞经济学研究的,包括我个人来说,这些争论直接涉及到写文章、发文章的问题,因此更重要,也更有意思的多。我今天挺闲,又不想写有争议性的题目,就写写structural和reduced-form经验研究方法的争论,不过这个题目对大多数人来说可能太枯燥了。

自然科学和社会科学的主要区别就在于在社会科学里很难做真正的randomized experiment,存在endogeneity的问题。照我经济计量学教授的说法,经济学和其他社会科学的区别就是经济学家理解,而其他学科不懂endogeneity的问题。举几个例子,说明一下什么是endogeneity。

比如我们想研究政治制度(比如一个国家是否民主)和经济增长速度关系的问题。最简单的方法就是将经济增长速度和政治制度作回归,看民主国家是否经济增长更快。抛开其他统计问题,比如怎么来量化政治制度,经济增长速度的统计误差等等,这个方法最严重的问题就是endogeneity。如果我们用医学实验作为研究的蓝本,那么最理想的情况就是将世界上接近200个国家随机分为好几组,每组实行不同的政治制度,30年之后统计比较它们经济增长速度的不同。这种理想情况当然不可能出现,但是用来对比就可以发现简单回归分析的问题所在。现实世界中一个国家的政治制度并不是被随机的,而是由一个国家的历史,地理,经济,文化等各种因素决定的。而这些因素很明显也对经济增长速度有很大的影响,因此如果简单的回归分析结果发现民主国家经济增长快,我们并不清楚到底是政治制度本身影响经济增长,还是导致一个国家选择民主制度的这些因素促进经济增长,政治制度本身没有任何影响。用统计学的语言就是是否有我们没有观测到的因素和政治制度及经济增长制度都相关,这样的话用回归方法估计出的结果是biased,不可靠。

劳动经济学里最重要的一个研究课题就是估计教育对一个人一生收入的影响。但是直接将收入和教育程度作回归,会遇到endogeneity的问题。因为一个人的教育程度并不是被随机决定的,一个人的能力,家庭环境有极大的影响。能力高,父母重视教育的人教育程度也高,但是能力,家庭环境明显对一个人的收入有很大的影响。因此直接回归的结果很可能高估教育对收入的作用。

教育经济学里一个领域是研究班级人数对学生成绩的影响。直觉上,班级人数如果小的话,老师对每一个学生会投入更多的精力,学生的成绩会提高。但是一个学校的资源有限,要做收益-成本分析,决定最优的班级人数,需要知道确定的数值。美国的中小学教育是分散制,教育政策包括班级人数由各个校区自己决定。有钱人居住的校区,资源多,老师多,班级人数少,穷人校区相反。因此直接将学生成绩和班级人数作回归得出的结果有很大的bias,也就是说有endogeneity的问题。

如果仔细考虑一下,几乎所有经济学包括其它社会科学研究的问题都面对endogeneity的问题。因此几乎所有社会科学的经验研究都可能不可靠。即使回归分析的p-value小于0.001,我们也不能确定的参数到底是不是0。因此过去几十年,经济学家想出各种方法来解决endogeneity的问题。

一种最明显的方法是将这些其他变量直接加入回归方程,作为控制变量。这样回归分析结果就去除了其他因素的影响。但是这种方法在大多数情况下并不能完全解决问题。比如对于政治制度和经济增长的研究,本来数据就不多。而这些其他影响经济增长的因素到底是什么我们不是很清楚。加控制变量太少,不解决问题,加太多了,statistical power会大幅度降低。比如有的因素可能被政治制度决定,但是不影响经济增长速度。如果我们把它加入回归方程,会出现multilinearity的问题。即使事实上政治制度确实影响经济增长,但结果可能显示统计不显著,。

关于收入和教育关系的研究。如果我们加入很多家庭背景的变量,这样的回归其实就是比较一个家庭里兄弟姐妹收入差别和教育程度差别的关系。如果我们再加上出生时间作为控制变量,结果就是比较双胞胎收入差别和他们教育程度差别的关系。从表面上看,双胞胎DNA是一样的,因此能力是一样的,家庭背景也完全一样,因此用他们的收入差别和教育差别作回归,就避免了endogeneity的问题。可是仔细考虑一下,我们就会提出疑问。既然他们各种情况一样,为什么教育程度不同呢?可能其中一个人小时候得了重病,影响了学业,可能是父母对其中之一特别偏爱,或者其他许多可能。但是这些因素比如身体情况对收入也会有影响。因此连双胞胎研究也无法避免endogeneity的影响,其它研究加控制变量结果的可靠性更成问题。

80年代后期,经济学的经验研究走了两个不同的方向。有的经济学家基本上放弃了经济理论对经验研究的指导。他们的方法是寻找最大程度接近randomized experiment的数据,从而解决endogeneity的问题。这一派被称为reduced form。他们的统计方法一般比较简单,普通人没有什么数学和统计学的训练也可以弄懂。由于经济学家要对实际的政策制定发生影响,必须要说服议员,市长等政客。因此reduced-form在这方面有很大的优势。

Structural派的经济研究则是完全从经济理论出发。比如研究教育同收入的关系,就直接从效用最大化来直接model教育程度的确定。Structural的统计方法一般很复杂,一个估计的程序电脑运行经常就要好几个月。这一派具体的模型细节和估计方法不要说普通人,就是研究其他领域的经济学家要搞懂也要花很多时间,因此对政策制定影响要小。但是structural的方法也有它的优点。我们可以用structural模型估计的参数作预测,对不同的政策选择作分析,reduced-form结果应用的局限性要大一些。

接下来我就介绍一下reduced-form和structural两派的具体方法。由于reduced-form方法比较好懂,我就写得详细一些,structural那一派就简略一些。

元宝推荐:老马丁,海天,晨枫, 通宝推:苏城,redbud,万里风中虎,赫然,frnkl,

本帖一共被 1 帖 引用 (帖内工具实现)
家园 非常有价值,翘首以待!
家园 【原创】Diff-in-Diff

Difference-in-Difference是比较早的reduced-form一种方法。有人称Diff-in-Diff是Natural Experiment。我后面用Natural Experiment指更严格的更接近随机实验的设计,因此用法有些不同。Diff-in-Diff具体指什么,接下来举几个具体例子。

劳动经济学里争论比较激烈的一个问题是最低工资对失业率的影响。就最基本的经济学原理来说,最低工资如果很高,劳动力市场供给会大于需求,会大大增加失业率。现在美国的最低工资是7.25美元,我们可以想象一下,如果增加到30美元,很多企业会关门或削减员工,失业率会大幅度增加。但是在现有水平上将最低工资增加一点,比如增加到8美元对失业率的影响有多大却不是很清楚。我们需要用经验数据来研究增加最低工资对失业率的实际影响。一个办法是在美国联邦政府增加最低工资后比较失业率的变化。比如2007年Fair Minimum Wage Act将最低工资由5.15美元升为7.25美元。但是影响失业率的不仅有最低工资,还包括很多宏观经济的因素。因此我们不能因为过去3年美国失业率大幅度增加就作结论说这都是增加最低工资的结果。用医学实验研究来做个类比,我们需要两组,一组是treatment组,最低工资增加,一组是control组,最低工资不变。然后比较这两组失业率的变化。David Card和Alan Kruger注意到1992年新泽西最低工资由4.25美元升为5.05美元,而临近的宾西法尼亚最低工资不变。宏观经济因素对两个州失业率的影响应该是相似的。因此他们搜集数据计算新泽西和宾西法尼亚在1992年11月到12月之间快餐业就业人数的变化(第一次difference),然后再比较这两个difference的差别(diff-in-diff)。他们的结果是最低工资的增加增加了快餐业就业人数。不过这个结果是statistically insignificant。他们的结论是最低工资对就业人数没有影响。(这项研究很有名,对它的批评也很多,河友感兴趣的可以找论文读一下。)

由于美国是联邦制,许多制度各个州都不一样,这就给了经济学家使用Diff-in-Diff方法提供了很大的方便。这方面比较早论文还包括Jonathan Gruber研究childbirth mandate的文章。1970年以前,美国政府不要求雇主提供的医疗保险包括妇女生育。在70年代,23个州要求雇主提供的医疗保险包括妇女生育,1978年联邦法律通过所有的州都要求childbirth mandate。额外的保险增加了雇主雇佣女性的成本,因此经济学家对childbirth mandate对女性就业人数和工资的影响很感兴趣。。Gruber就将这23个州作为treatment组,另27个州作为control组。比较两组女性工资和就业人数变化的差别(diff-in-diff)。由于这23个州可能同那27个州也有不同,他又加了一个diff,比较这两组男性-女性工资差别的变化,(diff-in-diff-in-diff)。他的结论是由于childbirth mandate,女性工资下降了4.3%,但是就业人数没有变化,因此childbirth mandate导致的成本的增加基本上由女性工人承担。

另外一项很有名的使用diff-in-diff方法的研究是2001年John Donahue和Steve Levitt研究堕胎政策对犯罪率影响的论文。美国的犯罪率从90年代开始大幅度下降,具体原因我们现在也不是很清楚。Donahue和Levitt注意到七十年代美国开始实行堕胎合法化,他们将这两者联系起来,假设是堕胎堕掉的是父母不想要的孩子。如果堕胎非法,这些孩子出生,这些孩子父母对他们的关心会相对较少,他们选择犯罪的可能性会更大。因此70年代的堕胎合法化导致了90年代的犯罪率降低。但是很明显还有很多其他因素在70,80年代变化影响犯罪率。因此他们采用diff-in-diff的方法。1970年美国有5个州率先将堕胎合法化,其余的州在1973年Roe vs. Wade之后才将堕胎合法化。因此他们使用diff-in-diff的方法来分析这个政策变化对90年代犯罪率变化的影响。他们发现这5个州的犯罪率率先下降,再加上一些其他分析,结论是美国犯罪率下降的很大一个原因是堕胎的合法化。

这可能是Steve Levitt最有名的文章,在美国由于对堕胎的争论,格外引人注目。他获得John Bates Clark Medal这篇文章起了很大的作用。但是2005年Foote和Goetz复制他们的研究却得不到他们的结果。在检查他们的程序后发现有错误。因此他们文章里有的结果其实是错的。现在一般的看法是数据并不能证明堕胎合法化降低了犯罪率。原因在于最早堕胎合法化的那5个州Hawaii,Washington,Alaska,California和New York同其他的州有很大的不同。80年代crack cocaine吸毒有关的犯罪最厉害的也主要就是这几个自由派的州。随着对crack cocaine的控制,90年代这几个州犯罪率下降也最大。因此这5个州犯罪率率先下将同堕胎合法化无关。

这个例子也说明diff-in-diff的方法只是quasi-experiment。它的结果要有说服力,我们必须要说服读者各个州采用不同的政策是由于随机因素,同我们想研究的对象没有关系。在很多情况下,要想做到这一点并不容易。因此,diff-in-diff方法的结果并不总是让人信服。

元宝推荐:老马丁, 通宝推:万里风中虎,王敏,
家园 商榷:其他学科早就把endogeniety的问题正规化了

涉及哲、计算机科学/人工智能以及医学研究,几乎是共同自发地

econometrics只是应用的一个分支……

可能主要原因是经济学家不太读其他领域的方法学文章……

家园 我感觉我们讲的是两回事

endogeneity这个词有很多含义。即使在经济学里endogeneous growth theory中的endogeneous也指的是截然不同的两回事。我这篇文章里的endogeneity指的是统计学的问题,我觉得和哲学以及人工智能实在没有什么关系。医学研究的randomized experiment方法对经济学经验研究有很大的影响。我文章里提到好几次,象treatment,control这些术语也是从医学里借来的。但是医学主要研究方法是实验,它用来解决这个问题的一些方法在经济学和社会科学里不适合。

正规的经济学论文里用严格的统计学的框架来讨论endogeneity的问题。这是篇介绍文章,加一堆数学公式没必要。

家园 如果说统计学的话,那其实就真的是一回事了

Randomized Trial只是医学中的一种特例.一般化的理论用于处理观察性研究.哲学是从1950年代法国人Lewis开始讨论这个问题,AI是80年代开始应用.多个学科各自在相对接近的时间里相对独立地发展出了同样的理论体系.具体可参见Judea Pearl的Causality

家园 经济学也在50年代就意识到这个问题了

50年代Cowles Foundation的重要研究成果之一就是关于simultaneous equation系统的研究。Trygve Haavelmo

因为在这方面的研究获得诺贝尔经济学奖。现在使用的统计方法象Instrumental Variable,2SLS,包括natural experiment的思想都是那个时候发展起来的。Regression discontinuity也是1960年由统计学家发展出来的,不过在经济学研究中的应用要直到90年代末。一些人认为在80年代末,90年代初经济学经验研究发生了一场革命的原因在于这之前,经济学经验研究的标准很低。许多文章很明显有endogeneity的问题,换到今天连博士课term paper都不一定过,却发在最好的杂志。从八十年代末之后,经验研究的可信度有了很大的提高。但是这也带来了一些其他的问题。我后面会提到。

另外经济学家关心的是解决这个问题的实际方法,我还是觉得哲学思辨和人工智能的研究对这个问题的实际解决没什么帮助。

家园 不是学科

而是在这两个学科里面的人提出了一般化的理论系统。

endogeneity问题的终极是causal inference是否能够成立,其实到最后仍然是一个哲学问题。Judea Pearl是研究AI的,但是研究过程中也不可避免地遇到了相同的问题。这就是殊途同归。

最后,经济学所谓的解决问题的实际方法,正是哲学思辨开始,研究人工智能的人提出了实际的解决,当然,提出相同解的人得了诺贝尔纪念奖,很多人就以为这是唯一解了。

家园 endogeniety

有点偏颇了。相反比较客观的是,实际上econometrics是对causality,endogenity,neutrality,stationarity等等研究最活跃的学科,我本人反而恰巧是做baysian 人工智能的,应用是生物医学信息学。具体到Judea Pearl的Causality,首先要说的是,他是从学习bayansin 网络的结构引出的问题,往简单说:一个用图表示的变量链接图,其变量之间的链接表示dependceny关系,很多情况下,图的结构不一样,有可能他推理的结果是一致的,那么那个变量连接才是真的呢(表示causal relationship),或者变量之间的箭头方向是什么呢?他假设,假如没有隐变量,并且已知一个图,那么有些因果关系(变量之间的箭头方向)还是可以确定的。Judea的工作在于提供一个框架来讨论这个因果性的问题,但是并没有解决发现因果性的问题(怎么可能解决,这个本身就是科学的终极问题)。同时,要指出的是,实际上Judea肯定是阅读过economcetrica领域工作,比如他在他的causality里面就提到了著名的Granger(200?年经济学诺奖和Engle一起) causality,但是也可以遗憾的说,他对economcetrica,统计学领域在这一方向理论上的最新进展至少没有完全体现在他的老版本里面,而他本人是承认causality在其他领域的重要性的,时间上,Judea是2000年提的,而grange causality是1969年发表的。

楼主的说法还是中肯的,其关于structural model和reduceformmodel的讨论,可以见于一般的econometria教材,比如说,Hamilton的那本。本人作为人工智能研究者,认为人工智能的发展,主流观点也是认为,正是因为有了统计学等学科坚实的基础,才让人工智能成为一门科学。人工智能还应该在并且越来越在这个方向发展。

通宝推:xtqntd,万里风中虎,
家园 谈谈你对GMM方法的理解吧

什么情况下应该使用GMM?在GMM和2SLS和LIML中如何选择?3种方法的优劣?

另,请详细解释Structural派如何直接从效用最大化来直接model教育程度的确定?

另,与endogeniety的危害相比,instrumental variable 带来的multilinearity的问题是否可以容忍?

谢谢。

家园 Dracula先生如果有时间

能把这些主要的方法向河友们介绍一下,会是一大善举。

以前千里烟波河友主要是用Bayesian probability流派的方法,而我们这些frequentist view在河内还没有很好的表达。

坐上小板凳,欣赏ING。

家园 经济学中对内生性问题的处理,

尤其是使用辅助变量的处理方法源远流长。

哈佛大学的前经济系主任James Stock就有文章考证过,经济学家在1925年就已经开始使用辅助变量来解决供给和需求的内生关系。而经济学家Philip G. Wright很可能就是IV方法的最早的发明者和使用者。

点看全图

伟大的经济学先驱Philip G. Wright

而他的儿子Sewall Wright,20世纪最重要的基因统计学家,也可能对此有贡献。

点看全图

20世纪最重要的基因统计学家Sewall Green Wright (December 21, 1889 – March 3, 1988)

外链出处

这个可以看James Stock文章的联结(外链出处)

As discussed in Stock and Watson, Introduction to Econometrics (2003, Ch. 10), the first published use of IV regression to estimate the coefficient on an endogenous variable (that is, to solve the “identification problem” in econometrics) appeared in Appendix B of Philip G. Wright’s book, The Tariff on Animal and Vegetable Oils. There, the author showed, via two derivations (one limited information, or single-equation, the other full-information, or system-based), that if there an observed variable that shifts demand but not supply, this variable could be used to estimate the slope of the supply curve. This was applied to data in percentage changes, so the result was the estimation of the elasticity of supply. The estimator, referred to as the “method of external factors,” is in fact the instrumental variables estimator with a single instrument. The second method derived the indirect least squares estimator, based on first solving for the reduced form when there is a variable that shifts supply but not demand and another variable that shifts demand but not supply.

Our analysis strongly points towards Philip Wright being the author of Appendix B. We also think that there is strong circumstantial and historical evidence that he thought of the idea of IV regression himself, although without additional primary sources we cannot be as sure of this. To find out more, download the paper (.pdf file).

搞学问有门户之见,是对自己智力发展的限制。

家园 Instrumental Variable我接下来会写

Instrumental Variable不会导致multilinearity吧。当然如果你的IV比较弱,standard error会变得很大。如何取舍取决于你研究的目的是什么。如果你想证明一个hypothesis,或者想发文章在很好的刊物,那么就想办法多找数据,或者找更好的instruments。如果你是搞政策分析或者搞预测,必须要有个答案,那就是个根据具体情况主观判断的问题,不过你可以根据数据对distribution作一些假设,然后用Montocalo simulation来看一下bias可能有多大,帮你作出决定。

2SLS是GMM的一个特例。我读过的使用IV的研究中,好象都是使用2SLS,没有使用LIML的。它们的asymptotic distribution我记得是一样的,因此只要你数据比较多,结果应该是很接近的,使用哪个没有实际区别。如果结果相差很大,说明你的instruments有问题,很可能哪个离真实的结果都相差比较远。因为我从来没有用过LIML,如何取舍我也不清楚。就发表文章来说,reduced-form那一派关心的是你研究的design,identification,具体的统计方法并不重要。我的建议是随大流,使用2SLS,如果使用LIML,又没有特别的理由,审稿人可能认为你是data mining,2SLS得不到你想要的结果才换方法。

关于用structural办法估计return to schooling,这是一篇综述文章,发表在European Economic Review.

外链出处

家园 谢谢。能对这段给个文献或具体解释一下吗?

你可以根据数据对distribution作一些假设,然后用Montocalo simulation来看一下bias可能有多大,帮你作出决定。

multilinearity的问题我提错了。

EER的文章找到了。

家园 定义endogeneity

我觉得大家还是把endogeneity各自定义一下,否则可能很难说清楚。

全看树展主题 · 分页
/ 6
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河