前面学习的直线回归是研究一个应变量和一个字变量之间的线性依从关系的一种统计方法,但实际工作中,常会出现一个应变量受到多个自变量的影响,如:人的肺活量与身高、体重、胸围等因素有关;糖尿病病人的血糖变化会受到胰岛素、糖化血红蛋白、血清总胆固醇、甘油三酯等多种生化指标的影响。对这样的情况,仅用简单的直线回归分析是不够的,所以需要使用多元统计分析方法。
第十三章 多重线性回归与相关
第一节 多重线性回归的概念及其统计描述
一、概念
1.定义
研究一个因变量Y与多个自变量X1、X2、…、Xm之间的线性依从关系的一种统计方法。
2.表达形式
研究的这种依从关系主要是通过方程来反映,如果能写出一个方程,则表示它们之间有线性依从关系,方程中有哪几个自变量,Y就与哪几个X有关。
多元线性回归方程的一般形式为:
其中Y——因变量
X1(X1~Xm)——自变量,j=1,2, …,m
m——自变量的个数
β0——常数项,又称截距
βj——Xj的偏回归系数
ε——去除m个自变量对Y的影响后的随机误差,即残差
上面的多元线性回归方程是由总体数据而得出的,但在实际工作中往往得到的是样本数据,此时,求得的方程表达式为:
其中——因变量
Xj(X1~Xm)——自变量,j=1,2, …,m
m——自变量的个数
b0——常数项,是β0的估计值
bj——Xj的偏回归系数,是βj的估计值
3.偏回归系数的统计意义
通过一个简单的多元线性回归方程来讲解
为研究b1的意义,将X2固定在一个常数上,为计算方便取一个特殊的值,令X2=0
当X1=0时,Y=1
X1=1时,Y=3
X1=2时,Y=5
可以看出,X1每增加一个单位,对应的Y平均增加b1个单位,所以bj的统计意义为:当固定X1、X2、…、X-j-1、X-j+1、…、Xm后Xj每改变一个单位,因变量Y平均改变的单位数。
4.多元线性回归模型的应用条件
应满足下列3个条件:①Y与X1、X2、…、Xm之间存在线性关系;②各观察值Yi相互独立;③残差ε服从均数为0,标准差为σ2的正态分布(对任意一组自变量X1、X2、…、Xm和因变量Y具有相同方差,并且服从正态分布)
5.多元线性回归分析的一般步骤
1)根据样本数据建立模型,即求b0、b1、b2、…、bm,
2)对回归方程及各偏回归系数进行假设检验
二、多元线性回归方程的建立
学习多元线性回归分析的关键就是要找到对应的方程,即求b0、b1、b2、…、bm。求偏回归系数bj和常数项b0也是根据最小二乘原则。
1.建立方程的方法
1)根据最小二乘原则,可以首先建立一个正规方程组,
正规方程组为:
该方程组有以下几个特点:
①方程组中有m个方程,每个方程中有m个未知数,每个未知数的系数为lij(离均差积和或离均差平方和)
当i=j时,为离均差平方和,
当i≠j时,为离均差积和,
另外,在方程的右侧ljy也是离均差积和,
②方程组中的离均差平方和及离均差积和构成了一离差矩阵,表示为
2)求解这个方程组即可得到b0、b1、b2、…、bm
3)根据公式求b0:
2.例题
P242 例15-1
1)准备计算
①求各自变量和因变量的均数、观察值之和合观察值的平方和
②求离均差积和及离均差平方和
2)写出正规方程组
3)求解方程组,可以用代入法、消元法,也可以使用统计软件
4)求b0
5)写出多元线性回归方程
第二节 多重线性回归方程的假设检验
建立的方程是根据样本算出的,不可避免的会存在抽样误差,所以需进行假设检验。假设检验的内容有两方面
一、对回归方程假设检验及评价
1.假设检验——方差分析
H0:文字叙述:所建方程无统计意义(即因变量Y与一组自变量Xj间无线性依从关系)
符号表示:β1=β2=…=βm=0(所有偏回归系数均为0)
H1:文字叙述:所建方程有统计意义(即因变量Y与一组自变量Xj间有线性依从关系)
符号表示:βj不为零或不全为零
α=0.05
其中 ν=m
SS残=SS总-SS回 ν=n-m-1
SS总=lyy ν=n-1
2.决定系数R2
多元线性回归方程的决定系数
决定系数R2的取值范围0≤R2≤1,说明自变量X1、X2、…、Xm能够解释Y变化的百分比,R2越接近1,说明回归模型对数据的拟合程度越好。
3)复相关系数R
用来衡量因变量Y与多个自变量间的线性相关程度,即观察值Y与之间的相关程度。
二、各偏回归系数的假设检验与评价
若H0成立,所建回归方程无统计意义,则多元线性回归分析结束;但若如本例H0不成立,说明Y与一组X间有线性依从关系,但不能说明Y与每个X均有关系,故应进一步对每个偏回归系数进行检验。
1.偏F检验
计算统计量:Xj的偏F值
SS回(Xj)——Xj的偏回归平方和,表示模型中含有其他m-1个自变量的条件下,该自变量对Y的回归贡献www.med126.com/jianyan/,相当于从回归方程中剔除Xj后所引起的回归平方和减少医学全.在线量,或在m-1个自变量的基础上新增加Xj后所引起的回归平方和增加。偏回归平方和越大,说明相应的自变量Xj越重要,对方程的贡献越大。
SS回(Xj)的计算方法:原始数据中将Xj去除后,重新建立另一个方程,求出新建的方程的SS回,表示为SS回(-j),此时用含m个自变量的回归方程的SS回减去含m-1个字变量的回归方程的SS回即为SS回(Xj),即:SS回(Xj)=SS回- SS回(-j)
2.t检验法
,Sbj为bj的标准误,其计算方法复杂需使用矩阵获得。偏F检验等价,
tj服从自由度为n-m-1的t分布,查界值表,确定P,从而得出结论。
对于统一资料,t值和偏回归平方和一样,能说明自变量对方程的贡献大小,t越大说明该自变量对方程的作用越大。
3.标准化偏回归系数
前面讲到了使用偏回归平方和、tj可以衡量各自变量对Y贡献大小,但我们更希望通过方程中回归系数的大小来描述。偏回归系数的统计意义为:固定X1、X2、…、X-j-1、X-j+1、…、Xm后Xj每改变一个单位,因变量Y平均改变的单位数。虽然bj决定了Y平均改变的单位数,但由于各自变量的单位不同,但从各个偏回归系数的绝对值大小不能判断该自变量对Y的贡献大小。所以我们对数据进行标准化,,利用标准化后的数据建立回归方程,称为标准化回归方程,,相应的各偏回归系数称为标准化偏回归系数。标准化后回归方程的截距为0,且
用标准化偏回归系数可以比较各自变量Xj对Y的贡献大小,通常在偏回归系数有统计意义的前提下,标准化偏回归系数的绝对值越大,说明相应自变量对Y的作用越大。