计算出相关系数后,如果r显著,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。
“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。
直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:
=a+bX(9.5)
式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的值,即回归直线与纵轴的交点:b称为 回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时,相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方程的计算法
仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:
1.列回归计算表(见表9.1),计算∑X、∑Y、∑X2、∑Y2、∑XY。
2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)
X=∑X/n=15.1/15=1.01
Y=∑Y/n=222/15=14.80
∑(X-X)2=∑X2-(∑X)2/n=0.2093
∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.7800
3.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:
(9.5)
a=Y-bX (9.6)
本例b=-1.7800/0.2093=-8.5045
a=14.80-(-8.5045)(1.01)=23.3895
4.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:
=23.3895-8.504X
在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如:
取 X1=0.8,则1=23.3895-8.5045×0.8=16.59,
X2=1.2 则2=23.3895-8.5045×1.2=13.18。
连接(0.8、16.59)和(1.2 、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线( 见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。
三、直线回归方程的假设检验
(一)样本回归系数的假设检验
根据例9.1资料求得的是样本回归系数b,有抽样误差的,需作假设检验,检验其是否是从回归系数为0的假设总体(即β=0)中随机抽得的,也就是检验b与0的差别有无显著性。如果差别有显著性,可认为X与Y间有直线回归存在。
样本回归系数的假设检验亦用t检验。
H0:β=0 即Y的变化与X无关;
H1:β≠0。
计算公式为:
(9.7)
分母Sb是样本回归系数b的标准误,计算公式为:
(9.8)
分子Sy.x为各观察值Y距回归线的标准差,即当X的影响被扣去以后Y方面的变异,可按下式计算:
(9.9)