线性回归分析的有效性依赖于若干假设,这些假设包括:1)因变量与自变量间存在着线性关系;2)自变量不是随机变量,且不存在精确的(完全的)线性关系;3)给定自变量,误差项的条件期望为零,即;4)误差项的方差应为常数,即;5)误差项之间应相互独立,即;6)误差项是正态分布的。
以上六个假设如果有一个或多个被违反,则线性回归分析的结果会有问题,最常见的三个问题是异方差性、序列相关与多重共线性。针对以上三个问题,我们需要明确:1)问题的含义是什么?2)它对回归分析的影响;3)如何识别这些问题?4)如何处理这些问题?下面我们做一个系统的总结。
一、异方差性(heteroskedasticity)
含义:误差项的方差不为常数,而是随着观察值的变化而变化,可以分为无条件异方差(unconditional heteroskedasticity)与条件异方差(conditional heteroskedasticity)。无条件异方差指误差项的方差虽然随观察值的变化而变化,但是没有固定的规律,这虽然违反了线性回归的假设,但对回归分析结果不会有太大的影响。条件异方差则不同,误差项的方差会随着观察值的增大而增大或减小,从而对回归分析的结果会产生较大的影响。
影响:1)回归系数的标准误不能有效的估计;2)回归系数的估计不受影响;3)回归系数的T检验的结果会受影响,如果标准误被过大估计,则T统计量会过小,则容易导致错误地无法拒绝原假设;如果标准误被过小估计,则T统计量会过大,则容易导致错误地拒绝原假设;4)F检验的结果也是不可靠的。
识别:1)在一元回归中,可以观察值为横轴,残差为纵轴做散点图进行观察,如果发现残差随着观察值的增大或减少有显着变化,则可能存在异方差;2)更常用的识别方法为Breusch-Pagan检验。
处理:1)使用稳健标准误(robust standard error)重新计算T统计量,根据新的统计值判断是否拒绝还是无法拒绝原假设;2)使用广义最小二乘回归。
二、序列相关(serial correlation)
含义:序列相关也称自相关,是指误差项之间不是完全相互独立的,而是存在相关性。序列相关分为两种,一种得正序列相关,一种是负序列相关。正序列相关中,正的误差项之后有较大概率仍是一个正的误差项,在负序列相关中,正的误差项之后有较大概率是一个负的误差项。
影响:正的序列相关使得残差项倾向于集聚,从而使得系数的标准误缩小,从而夸大了 T统计量,使得第一类错误的可能性上升,即在原假设成立时错误的拒绝它,这会使得我们错误的把不显着的结果当成显着的。但系数本身的估计仍是可靠的。
识别:1)在一元回归中与识别异方差的方法类似,可以观察值为横轴,残差为纵轴做散点图进行观察;2)DW 检验:如果 DW 统计量小于下临界值,则拒绝原假设,残差正序列相关。如果,则无法得出结论。如果DW统计量大于上临界值,则无法拒绝原假设。
处理:1)使用 Hansen-white标准误,对原来的标准误进行调整;2)进一步修正模型,将数据的时间序列性质纳入到模型中。
三、多重共线性(multicollinearity)
含义:两个或更多的自变量,或者自变量的线性组合高度相关。
影响:1)对系数的估计不可靠;2)过高的估计系数的标准误,从而导致低估T统计量,从而错误地无法拒绝原假设,从而错误的得出结论认为系数统计上不显着。
识别:1) 如果模型的F检验与都表明模型显着,但T检验表明各个变量不显着,则很可能存在多重共线性;2) 如果只有两个自变量,它们的相关系数大于0.7,则很可能存在多重共线性,注意这条经验规律只在只有两个自变量的情况下成立。
处理:1)试着去掉一两个变量;2)使用逐步回归法(stepwise regression),逐渐减小多重共线性。
以下表格对比分析了三种违反线性回归假设情况的含义、影响、识别与处理方法:
本文来源于高顿,原创文章,欢迎转载,转载请注明来源高顿。如果想了解更多关于CFA®考试相关信息,可以关注CFA®考试俱乐部(www.cfa.com.cn)。