当前位置: 首页 >> 数据前沿

回归分析 | 闯荡数据江湖的武功秘籍

社会经济定量研究主要包括了相关关系研究、影响因素研究、综合评价研究、效率及有效性研究、预测、竞争力研究、产业结构优化、发展战略研究等方面的内容。

应用的方法,主要有相关分析、回归分析、因子分析、主成分分析、偏离份额分析、方差分析、灰色关联、层次分析、聚类分析、SWOT分析、DEA分析、产业关联分析等等,如何掌握这些分析方法,下面和中心一起学习吧!


一、回归分析测度原理

“回归”(Regression)一词最初是由英国生物学家兼统计学家F.Galton(F·高尔顿)在一篇著名的遗传学论文中引入的(1877年)。他在研究中发现,具有较高身躯的双亲,或具有较矮身躯的双亲尔,其子女的身高表现为退回(即回归)到人的平均身高趋势。这一回归定律后来被统计学家K·Pearson通过上千个家庭成员身高的实际调查数据进一步得到证实,从而产生了“回归”这一名称。

然而,现代意义上的“回归”比其原始含义要广得多。一般来说,现代意义上的回归分析是研究一个变量(也称为explained variable或因变量dependent variable)对另一个或多个变量(也称为解释变量explanatory variable或自变量independent variable)的依赖关系,其目的在于通过解释变量的给定值来预测被解释变量的平均值或某个特定值。

具体而言,回归分析所要解决的问题主要有:

(1)确定因变量与自变量之间的回归模型,并依据样本观测值对回归模型中的参数进行估计,给出回归方程。

(2)对回归方程中的参数和方程本身进行显著性检验。

(3)评价自变量对因变量的贡献并对其重要性进行判别。

(4)利用所求得的回归方程,并根据自变量的给定值对因变量进行预测,对自变量进行控制。

相关分析

现象之间的相互联系一般可以分为两种不同的类型:一类为变量间的关系是确定的,称为函数关系;而另一类变量之间的关系是不确定的,称为统计关系。

变量之间的函数关系表达的是变量之间在数量上的确定性关系,即一个或几个变量在数量上的变动就会引起另一个变量在数量上的确定性变动,它们之间的关系可以用函数关系y=f(x)准确地加以描述,这里x可以是一个向量。当知道了变量x的值,就可以计算出一个确切的y值来。

变量之间统计关系,是指一个或几个变量在数量上的变动会引起另一个变量数量上发生变动,但变动的结果不是惟一确定的,亦即变量之间的关系不是一一对应的,因而不能用函数关系进行表达。变量之间的统计关系可以用数学模型y=f(x)+μ来表示。这里的x既可以是单个变量,也可以是向量。f(x)是一个确定的函数关系,它既可以是线性的,也可以是非线性的。

当已经知道变量之间存在统计关系后,能否根据一个变量的值来预测另一个变量的平均值或个别值,或者根据给定的变量值来控制另一个变量值呢?这一问题的回答涉及到线性回归分析。在此,必须弄清相关分析和回归分析两者之间的关系。

相关分析和回归分析虽然都是研究两个或两个以上变量之间的关系,但二者之间既有区别又有联系。

首先,二者的研究目的不同。前者主要研究变量之间是否存在线性关系以及这种关系的强弱程度,而后者则是在前者的基础上进一步研究变量之间的联系方式,以便在给定一个或几个变量值的条件下预测或控制另一个变量的值。因此,相关分析中的变量之间的关系是对等的,而回归分析中的变量间的地位是不对等的。在进行回归分析时,必须明确变量间的依赖关系,即哪个变量依赖于哪个或哪些变量。一般把说明或解释另一个变量的变量称为解释变量,用x表示;而作为被说明或被解释的变量称为被解释变量,用y表示。

其次,两者的假设条件不同。相关分析假设研究的两个变量都是随机的。事实上,只要有一个变量是确定性的,则相关系数一定为零。而回归分析一般都假设解释变量是确定性的,在重复抽样中取固定的值;被解释变量是随机的,它有一个概率分布。回归分析的目的就是要通过给定解释变量的值来预测或控制被解释变量的总体均值或个别值。

然而相关分析与回归分析之间又有着密切的联系。首先,在进行回归分析之前,一般要确定变量之间的线性关系是否密切,这就要依赖相关分析。其次,变量之间的相关系数与回归分析中的拟合程度也存在一定关系,这在后面的分析中将会看到。

值得注意的是,回归分析所研究的变量之间的依赖关系通常是一种经验关系,而并不一定包含因果关系。换句话说,变量之间因果关系的确立只能来自其他学科的理论根据,而非回归分析所能解决的。


二、回归分析 VS 相关分析

回归分析与相关分析是利用建立数学模型的过程和结果进行解释和预测的重要途径,主要用于回答一些定义明确的数值变量之间的关系问题。

所谓回归分析(regression analysis),描述的是一个或多个自变量的变化如何引起因变量变化的一种统计分析方法。

而相关分析(correlation analysis)则是描述两个数值变量之间的关系强度问题。回归分析和相关分析在处理数值变量关系时可以互为补充、相辅相成。

回归分析一般基于两种算法,1)最小二乘法(least squaremethod,LSM),2)迭代(iteration)计算方法。实际上,最小二乘法也可以借助迭代法达到求解目标。经常用到的是普通最小二乘法(OLS)。目前看来最小二乘法是解决回归分析问题最有效的方法,因为对于一个回归模型而言,最重要的参数乃是斜率,而最小二乘法在斜率估计方面效果很好。

回归分析是最为基本的定量分析工具,很多表面看来与回归分析无关,并且貌似难以理解的数学方法,可以通过回归分析得到明确的解释。通过回归分析,可以更好地理解因子分析、判别分析、自回归分析、功率谱分析、小波分析、神经网络分析等。

线性回归分析的假设:

1)基本假设:预测值与观测值之间的误差是由外部原因随机扰动引起的,与模型本身的性质没有关系。因此,残差的分布理当服从正态分布规律,具有0均值和等方差性质,即εi~WN(0,σ2)。也就是说残差是均值为0、方差为常数的白噪声(white noise,WN)序列。

2)默认假设:自变量之间是“正交”的,或者说是相互垂直、彼此线性无关的。

回归分析的5大常规检验:

1)相关系数检验。相关系数用于检验模型线性关系的拟合效果。

2)标准误差检验。标准误差用于判断模型的预测精度。

3)F检验。F检验用于判断自变量和因变量的线性关系是否成立。

4)t检验。t检验用于判断回归系数与0是否具有显著性差异。

5)DW检验。用于判断是否存在残差序列相关(判断模型的误差是否属于外界随机扰动)。


三、回归分析武功秘籍

所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。

回归分析中,根据变量多少,可以分为一元+多元回归分析;当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。

此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。

回归分析法是定量预测方法之一。它依据事物内部因素变化的因果关系来预测事物未来的发展趋势。由于它依据的是事物内部的发展规律,因此这种方法比较精确。测报工作中常用的是一元线性回归和多元线性回归模型。

回归分析方法:

1、Linear Regression线性回归

它是最为人熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。

线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。

用一个方程式来表示它,即Y=a+b*X + e,其中a表示截距,b表示直线的斜率,e是误差项。这个方程可以根据给定的预测变量(s)来预测目标变量的值。

回归分析

(1)直线回归:

如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),否则应作适当的变换,使其满足上述条件。

(2)多重线性回归:

应变量(Y)为连续型变量(即计量资料),自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。

观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素

实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用

2、Logistic Regression逻辑回归

逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,我们就应该使用逻辑回归。这里,Y的值从0到1,它可以用下方程表示。

上述式子中,p表述具有某个特征的概率。你应该会问这样一个问题:“我们为什么要在公式中使用对数log呢?”。

因为在这里我们使用的是的二项分布(因变量),我们需要选择一个对于这个分布最佳的连结函数。它就是Logit函数。在上述方程中,通过观测样本的极大似然估计值来选择参数,而不是最小化平方和误差(如在普通回归使用的)。

要点:它广泛的用于分类问题。

逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系,因为它对预测的相对风险指数OR使用了一个非线性的log转换。

为了避免过拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法来确保这种情况,就是使用逐步筛选方法来估计逻辑回归。

它需要大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。

自变量不应该相互关联的,即不具有多重共线性。然而,在分析和建模中,我们可以选择包含分类变量相互作用的影响。

如果因变量的值是定序变量,则称它为序逻辑回归。

如果因变量是多类的话,则称它为多元逻辑回归。

3、Stepwise Regression逐步回归

在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。

这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。下面列出了一些最常用的逐步回归方法:

标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。

向前选择法从模型中最显著的预测开始,然后为每一步添加变量。

向后剔除法与模型的所有预测同时开始,然后在每一步消除最小显着性的变量。

这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一。

4、 岭回归

岭回归分析是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法。

要点:

除常数项以外,这种回归的假设与最小二乘回归类似;

它收缩了相关系数的值,但没有达到零,这表明它没有特征选择功能

这是一个正则化方法,并且使用的是L2正则化。


四、数据江湖回归十一式

1、 稳健回归

其主要思路是将对异常值十分敏感的经典最小二乘回归中的目标函数进行修改。经典最小二乘回归以使误差平方和达到最小为其目标函数。因为方差为一不稳健统计量,故最小二乘回归是一种不稳健的方法。为减少异常点的作用,对不同的点施加不同的权重,残差小的点权重大,残差大的店权重小。

2、 变系数回归

地理位置加权

3、 偏最小二乘回归

长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。而偏最小二乘法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。偏最小二乘法在统计应用中的重要性体现在以下几个方面:偏最小二乘法是一种多因变量对多自变量的回归建模方法。偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。能够消除自变量选取时可能存在的多重共线性问题。普通最小二乘回归方法在自变量间存在严重的多重共线性时会失效。自变量的样本数与自变量个数相比过少时仍可进行预测。

4、 支持向量回归

能较好地解决小样本、非线性、高维数和局部极小点等实际问题。

传统的化学计量学算法处理回归建模问题在拟合训练样本时,要求“残差平方和”最小,这样将有限样本数据中的误差也拟合进了数学模型,易产生“过拟合”问题,针对传统方法这一不足之处,SVR采用“ε不敏感函数”来解决“过拟合”问题,即f(x)用拟合目标值yk时,取:f(x) =∑SVs(αi-α*i)K(xi,x)

上式中αi和α*i为支持向量对应的拉格朗日待定系数,K(xi,x)是采用的核函数[18],x为未知样本的特征矢量,xi为支持向量(拟合函数周围的ε“管壁”上的特征矢量),SVs

为支持向量的数目.目标值yk拟合在yk-∑SVs(αi-α*i)K(xi,xk)≤ε时,即认为进一步拟合是无意义的。

5、 核回归

核函数回归的最初始想法是用非参数方法来估计离散观测情况下的概率密度函数(pdf)。为了避免高维空间中的内积运算 由Mercer条件,存在映射函数a和核函数K(?,?),使得:<a(xi )a(x )>=K(xi ,x)

采用不同的函数作为SVM的核函数K (x i,x),可以实现多种从输入空间到特征空间的非线性映射形式

6、 岭回归

岭回归分析是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法。

7、 半参数回归

模型既含有参数分量又含有非参数分量,其参数部分用来解释函数关系已知的部分,它是观测值中的主要成分,而其非参数部分则描述函数关系未知,无法表达为待定参数的函数部分。

8、 自回归

例1.Yt =α+β0Xt +β1Xt-1 +……+βsXt-s + ut,

例2.Yt = f (Yt-1, Yt-2,…, X2t, X3t,…),滞后的因变量(内生变量)作为解释变量出现在方程的右端。这种包含了内生变量滞后项的模型称为自回归模型。

9、正交回归

因素水平值在区间[Zj1, Zj2]内变化,经编码之后,编码值xi在区间[-1,+1]间变化,将响应值y原来对Z1, Z2……Zm的回归问题,转化为y对x1,x2……xm的回归问题。它的主要优点是可以把实验或计算的安排、数据的处理和回归方程的精度统一起来加以考虑,根据实验目的和数据分析来选择实验或计算点,不仅使得在每个实验或计算点上获得的数据含有最大的信息,从而减少实验或计算次数,而且使数据的统计分析具有一些较好的性质,以较少的实验或计算建立精度较高的回归方程。

10、逐步回归

实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,这就涉及到变量选择的问题,逐步回归是一种从众多变量中有效地选择重要变量的方法。基本思路为,先确定一初始子集,然后每次从子集外影响显著的变量中引入一个对y影响最大的,再对原来子集中的变量进行检验,从变得不显著的变量中剔除一个影响最小的,直到不能引入和剔除为止。

11、主成分回归

在统计学中,主成分分析是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。

首先对X阵进行主成份分析,T阵的维数可以与X阵相同,如果使用整个T阵参加回归,这样得到的结果与多元线性回归没有多大的差别。因为主成分(新变量)是原变量的线性组合。前面的k个主成份包含了X矩阵的绝大部分有用信息,而后面的主成份则往往与噪声和干扰因素有关。因此参与回归的是少数主成分组成的矩阵。在维数上远小于X。主成分回归通过对参与回归的主成份的合理选择,可以去掉噪音。主成份间相互正交,解决了多元线性回归中的共线性问题。主成分回归能够充分利用数据信息,有效地提高模型的抗干扰能力。

【图文转自】微信公众号计量经济学服务中心

本文图文来源于网络,版权属于原作者或网站。如有版权问题,请与管理员邮箱联系,将立刻进行相应处理。



八方聚焦