相关是关系的必要条件,但是相关并不意味必然有关系,发现了相关性,只是说明在统计学意义上两个变量之间可能存在关系,之后还要探讨链条。回归分析既要考察两个变量是否共同变化,还要预先设定哪个变量是原因、哪个是结果。 回归分析的步骤,首先是要看因变量和自变量是否以及如何先后呼应(如果无法根据数据分辨事实上的时间先后,可以分辨逻辑次序的先后。逻辑次序的先后,即在特定场景下不能想象一个变量在时间上先于另一个变量,而需要有逻辑关系),这里的是和否,也就是“显著”和“不显著”,判断方法是显著性检验。如果确定有显著呼应,再看呼应程度的高低正负。 (2)通过皮尔逊相关系数r 值,判断自变量与因变量之间的相关程度和方向,才决定是否运用线性回归分析法来预测数值。如果r系数值很小,那么就不要用线性回归方程式来预测,因为这样所犯的错误会很大。 b称为回归系数,表示回归线的斜率,b值的大小,表示X对Y的影响有多少,即每增加一个单位的X值时,Y值的变化有多大。a 是截距,即回归线和Y轴的交点。 回归线是使残差值的平方和最小化的估计值。残差值的平方和也称为 残差平方和(RSS)。那么,使残差平方和(RSS)最小化的方法,即为最小二乘法回归,或称为 普通最小二乘法(OLS)回归。做最小二乘线性回归分析,即是用该回归分析方法,计算出的一个回归系数,使用这个系数,根据自变量的值猜测因变量的值,能最大程度地减小根据平均值做预测产生的误差。回归系数的正负情况告诉我们两个变量之间的变化关系是正方向还是反方向,绝对值大小则表明变化范围多大。 通过该最小二乘法求得的回归方程所画出来的线,可看作是最佳拟合线,是一条比其他拟合线更优的直线,所有点都更接近这条直线,即所有点与该条直线的平方和最小,因此最佳拟合线也称为最小平方线. 对回归模型进行检验 最佳拟合线)时才能提供准确的预测。R²=1时,意味着变量100%的变化可以由最佳拟合线解释。在这种特殊情况下,如果样本数据能够真实表达总体,预测就会完全准确。 线性回归模型回归系数表,作用是对回归系数进行显著性检验,即检验回归模型中每个自变量与因变量之间是否存在显著性的线性关系,也即是检验自变量能否有效地解释因变量的线性变化。回归系数的显著性检验主要看 t值 和显著性(P值)两个指标。 (1)如果关系不强或是数据量不足,用最佳拟合线预测的效果就不会太好。如果所有的点都落在最佳拟合线附近,相关性非常强,预测也会因此而非常准确。如果有大量的样本点远离最佳拟合线,相关性非常弱,预测的结果也会不太准确。 单机【统计量】,选择“估计”、“置信区间”、“模型拟合度”、“Durbin-Watson”。 前文提到,线性回归的前提是变量之间必须存在相关关系,所以我们需要看“模型汇总表”中的相关系R值。这里R值为0.98,说明P和FAI存在很强的相关系。 方差分析表的作用是检验回归模型的回归效果是否显著,即检验因变量和自变量之间的线性关系是否显著。在简单线性回归中,针对回归模型整体的F检验与和针对回归系数的t检验是等价的,但在多重线性回归中,F检验是针对因变量与所有自变量之间的检验,而t检验则是针对因变量与各自自变量的显著性检验。 回归系数表中的第二列(B列),【常量】行对应的是回归模型中的常量 a(截距),【自变量】FAI行对应的是回归系数(即回归方程的斜率),标准化系数(Beta)一列用来测量自变量对因变量的重要性。回归系数表中,我们主要关注的是统计量t值及其对应的概率p值,以判断回归模型中每个自变量与因变量之间是否存在显著性。 我们进行回归分析的目标是建立回归模型来进行预测,因此需要在分析中求出回归方程中的未知量,即常量a和回归系数b。回归方程各参数主要看回归系数表中的第二列【非标准化系数】的【B】,其中a=1253.705,b=1.921,因此最终可得回归方程为: 该方程说明了,每增加一个单位的固定资产投资,就可以带来1.92个单位的P的增加。可见固定资产的投资对于拉动P增长的作用还是很明显的 。 回归方程确定后,就可以根据已知的自变量,来预测的因变量啦。下一篇,我们将介绍多重线性回归。前世死因测试
|