西西河

主题:【求助】又当伸手党了,非常惭愧,这次是最小二乘的问题 -- 上善若水

共:💬21 🌺15 新:
全看树展主题 · 分页 上页
家园 请南寒兄指点12

经济学我不懂,请指教。谢谢!

家园 可不可以这样呢?

既然X3是终值,X2是初值,可不可以用X2和(X3-X2)来做回归呢?这样就避免了multicollinearity.

家园 这个我也同意。

在纯统计里也没有随便扔掉一个变量的说法。 高度相关的两个变量并不代表这两个变量是一个东西。

譬如,失业率和犯罪率(X2,X3)这两个变量是高度相关的,在考虑这两个因素对房价的影响的时候,就不能随便去掉一个的,因为一个并不能代替另一个。

但有一些共线性,譬如,今年的失业率和去年的失业率(X2,X3)这两个变量高度相关,在考虑这两个因素对房价的影响的时候,就可以灵活得多了。。去掉一个变量,或者取个均值都是有可能的。

家园 主成分分析。

1.主成分分析其实就是对原来的变量进行正交变换降维,同时尽可能的提取原来变量中的信息。如果你能确保只有X2 X3是高度相关的,那么就只需要对X2 X3进行变换。 这样的话,就更简单了,并不一定非局限于主成分分析了。

像老农民的取均值的方法就常用而且直接。 如果想解释的话,可以考虑 一下取均值之后 y=1/2*X2+1/2*X3的 方差 和 var(X1)+var (X2)的差距,看看信息损失多少。 当然也可以直接用主成分分析,唯一的 不同就是这个是正交变换,y=a1*X1+a2*X2,你这种情况肯定是只能取第一主成分了,基本上应该解释绝大多数的方差变异了,一般来讲如果这个大于85%就是非常好了。

但是一上来扔东西肯定是不可取的。我觉得老农民说扔掉其中一个变量,可能就是先直接回归,也别管是不是相关。 如果有权重系数特别低,这样情况下,确实可以考虑扔掉一个,但得慎重。

2.关于脊回归的K,这个没有硬性规定的,当然是k越小越好,但是K越靠近0, 参数估计越不稳定。所以一般都是要取一个区间I=[0,a]的,进行比较。如果参数估计稳定了,那就应该差不多了。

这有个链接,是用SAS做的最简单的脊回归。当然也可以用R。

http://www.faculty.sfasu.edu/cobledean/Regression/Examples/RidgeRegressionExample.pdf

家园 抄书

这位老农民兄说指教,我就不敢说话了。这儿做个文抄公,算是个交待。

抄的就是我提到的Gujarati的书,需要强调的是这是一本初级的教材。因为multicollinearity就去掉一个变量,这里的危险是underspecification。如果一定要解决multicollinearity,"简单"的方法有两个。一是用a prior info,把这两个变量做成一个线性组合,然后再回归;另一个是,如果有足够的理由的话,把其中一个变量转换一下,比如说取平方值。小春风老兄还提到了其它的技术,可以说超出了初级的范围啦。

残愧得很,我这儿话说得半中半洋,但我这些玩艺都是鬼子这儿学的,不知道中文该怎么说。

家园 解决了问题,总结一下

这个问题终于得到了解决。

方法是用了主成分分析,把x2 x3生成两个新变量,x'2和x'3。

计算的结果x'2与x2相关系数为1,这样实际上x'3代表了x2 x3的差异。

也就是说在拟合中,单用x2作用“小”了,单用x3作用“大”了。

本来x2 x3一起用是对的,但由于共线性导致了错误。所以主成分分析以后,新变量x'2与x'3的拟合系数不一样了,也就是说,他俩在拟合中都起到作用。

而且从另外的方面证明,新变量x'3的确是某种因素的影响,二者的相关性在0.6以上。

向提出宝贵意见和回复的各位网友致以衷心的感谢!

全看树展主题 · 分页 上页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河