西西河

主题:【求助】又当伸手党了,非常惭愧,这次是最小二乘的问题 -- 上善若水

共:💬21 🌺15 新:
分页树展主题 · 全看 下页
  • 家园 【求助】又当伸手党了,非常惭愧,这次是最小二乘的问题

    用最小二乘法进行多元线性拟合,一组函数值Y,五组变量X1~X5,要拟合出X1~X5的系数。但是其中两组数据X2,X3相关系数比较高,达到了95%。其实,最终只需要X1的系数,请问应该怎么处理?

    • 家园 解决了问题,总结一下

      这个问题终于得到了解决。

      方法是用了主成分分析,把x2 x3生成两个新变量,x'2和x'3。

      计算的结果x'2与x2相关系数为1,这样实际上x'3代表了x2 x3的差异。

      也就是说在拟合中,单用x2作用“小”了,单用x3作用“大”了。

      本来x2 x3一起用是对的,但由于共线性导致了错误。所以主成分分析以后,新变量x'2与x'3的拟合系数不一样了,也就是说,他俩在拟合中都起到作用。

      而且从另外的方面证明,新变量x'3的确是某种因素的影响,二者的相关性在0.6以上。

      向提出宝贵意见和回复的各位网友致以衷心的感谢!

    • 家园 可不可以这样呢?

      既然X3是终值,X2是初值,可不可以用X2和(X3-X2)来做回归呢?这样就避免了multicollinearity.

    • 家园 可以试一下这两种方法。

      1.可以采用主成分分析,把x2和x3整成另外一个新的向量y。然后再拟合。

      2.也可以用一些像ridge regression的方法,因为x2,x3的相关性强,设计矩阵X=(x1,x2,x3,..x5)不满秩,从而(X'X)不可逆,因此可以将用(X'X+lamdaI)代替。不过这个就不算是最小二乘了,而且参数是有偏,但是好处是方差小,稳定,最小均方误也小。

      • 家园 谢谢春兄

        1、主成分分析的办法。就用第一主成分?还是用第一和第二主成分?

        或像下面老农民提出的,就用x2,x3的均值。这两种方法比较起来,从方法上讲,如何更好的解释结果呢?

        2、脊回归的k参数如何确定呢?能简单的说说嘛,或是给个例子。

        非常感谢!

        • 家园 主成分分析。

          1.主成分分析其实就是对原来的变量进行正交变换降维,同时尽可能的提取原来变量中的信息。如果你能确保只有X2 X3是高度相关的,那么就只需要对X2 X3进行变换。 这样的话,就更简单了,并不一定非局限于主成分分析了。

          像老农民的取均值的方法就常用而且直接。 如果想解释的话,可以考虑 一下取均值之后 y=1/2*X2+1/2*X3的 方差 和 var(X1)+var (X2)的差距,看看信息损失多少。 当然也可以直接用主成分分析,唯一的 不同就是这个是正交变换,y=a1*X1+a2*X2,你这种情况肯定是只能取第一主成分了,基本上应该解释绝大多数的方差变异了,一般来讲如果这个大于85%就是非常好了。

          但是一上来扔东西肯定是不可取的。我觉得老农民说扔掉其中一个变量,可能就是先直接回归,也别管是不是相关。 如果有权重系数特别低,这样情况下,确实可以考虑扔掉一个,但得慎重。

          2.关于脊回归的K,这个没有硬性规定的,当然是k越小越好,但是K越靠近0, 参数估计越不稳定。所以一般都是要取一个区间I=[0,a]的,进行比较。如果参数估计稳定了,那就应该差不多了。

          这有个链接,是用SAS做的最简单的脊回归。当然也可以用R。

          http://www.faculty.sfasu.edu/cobledean/Regression/Examples/RidgeRegressionExample.pdf

    • 家园 复共线性

      X2,X3复共线性,X2,X3不独立,你随便去掉一个因子X2或者X3就行了。你只要和X1做回归就可以了阿。相关系数0.95吗?95%怪怪的。

      • 家园 实际上,就是要求X2,X3的影响

        在整个线性拟合的过程中,x2,x3代表的是一个变量,但是x2是这个变量的初值,x3是终值,也就是说在一个过程中,从x2变化到x3。

        所以x2、x3相关系数很高。

        单独使用x2或x3,恰好会高估或是低估x1的拟合系数,这也就是为什么要同时使用x2和x3。

        从x2变化到x3,我不知道是不是一个线性变化,如果知道了,用x2和x3平均值就行了,但是我不知道这个过程是不是线性的。

        • 家园 x2和x3不互相独立

          x2是初值,x3是终值,本身x2和x3不互相独立,对这种复共线性一般的处理方法是丢弃一个保留一个;变通的处理方法你可以用x2和x3构造出新的变量,比如(x2+x3)/2这个最简单的平均数。当然你也可以造一个非常复杂的变量,这个随你。

          在这里统计大牛是老马丁,嘿嘿。

          • 家园 冒昧地说一句

            我以前说过:各个专业学的统计是"不一样"的;但是在econometrics里面,仅仅因为multicollineariy就随便扔掉一个变量,可以是非常严重的错误。

            • 家园 这个我也同意。

              在纯统计里也没有随便扔掉一个变量的说法。 高度相关的两个变量并不代表这两个变量是一个东西。

              譬如,失业率和犯罪率(X2,X3)这两个变量是高度相关的,在考虑这两个因素对房价的影响的时候,就不能随便去掉一个的,因为一个并不能代替另一个。

              但有一些共线性,譬如,今年的失业率和去年的失业率(X2,X3)这两个变量高度相关,在考虑这两个因素对房价的影响的时候,就可以灵活得多了。。去掉一个变量,或者取个均值都是有可能的。

            • 家园 请南寒兄指点12

              经济学我不懂,请指教。谢谢!

              • 家园 抄书

                这位老农民兄说指教,我就不敢说话了。这儿做个文抄公,算是个交待。

                抄的就是我提到的Gujarati的书,需要强调的是这是一本初级的教材。因为multicollinearity就去掉一个变量,这里的危险是underspecification。如果一定要解决multicollinearity,"简单"的方法有两个。一是用a prior info,把这两个变量做成一个线性组合,然后再回归;另一个是,如果有足够的理由的话,把其中一个变量转换一下,比如说取平方值。小春风老兄还提到了其它的技术,可以说超出了初级的范围啦。

                残愧得很,我这儿话说得半中半洋,但我这些玩艺都是鬼子这儿学的,不知道中文该怎么说。

          • 家园 谢谢农兄

            想过这样的办法,或者分别拟合,最后两个X1的拟合系数再平均。

            不过有点不太甘心,希望能找到更好的办法。

    • 家园 Check out Ch 10 of this book

      Basic Econometrics

      Damodar Gujarati, Dawn Porter

      Publisher: McGraw-Hill/Irwin; 5 edition (October 8, 2008)

      ISBN-10: 0073375772

      ISBN-13: 978-0073375779

      感觉上您不是专门做统计方面的,这应该算一本比较初级的书,希望能够有帮助

分页树展主题 · 全看 下页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河