一元线性回归
第一节 大数定律与数理统计的若干知识
§1﹒1 大数定律及中心极限定理
大数定律(low of large numbers)及中心极限定理(central limit theorem)不仅为概率论(theary of probability)提供统计方面的理论保证,而且也为数理统计(mathematical statistics)的理论和方法奠定了坚实的理论基础。
1﹒1﹒1 ЧебЫШв不等式
设随机变量的方差D存在且有限,则对0,有
PED2 (2.1)
1﹒1﹒2 Bernoulli大数定律
n重实验中事件A出现的频率实验中出现的概率p,即0,
vn,依概率收敛于事件A在每次nvnlimPp1 (2.2) nn1﹒1﹒3 ЧебЫШв大数定律
设n是相互的随机变量序列,且
nDc,n1,2,
(2.3)
11
其中c是常数,则对0,有
1n1n limPkEk1 (2.4)
nnk1nk11﹒1﹒4 Хинчин大数定律
设n是相互的随机变量序列,且
En,n1,2, 则对0,有
n1nnlimPk1 k11﹒1﹒5 Lèvy-Lindeberg中心极限定理
设n是、同分布的随机变量序列,且
E,D2nn0,n1,2, 则xR,有
nknt2limPk1x1nn2x2edt 1﹒1﹒6 De Moivre-Laplace中心极限定理
设n是、同分布的随机变量序列,且
n~B1,p,(0p1,n1,2,) 则xR,有
(2.7)
12
(2.5)
(2.6)(2.8)(2.9)nnpk1klimPxnnp1p12xet22 dt (2.10)
§1﹒2 基本统计量和常用统计分布
在数理统计中,统计量(statistic)及其分布被广泛用于参数估计(parameters estimation)和假设检验等统计推断(statistical inference)的过程中,
1﹒2﹒1
统计量的定义及常用统计量
定义2.1 设1,2,,n是总体的一个样本(sample),
T1,2,,是样本1,2,,n的不含任何未知参数的函数,则称T1,2,,为一个统计量;如果x1,x2,,xn是样本1,2,,n的一个观测值,那么称Tx1,x2,,xn是统计量
T1,2,,n的一个观测值。
定义2.2 设1,2,,n是来自总体的一个容量为n的样本,常用的统计量有
1、 样本均值(sample mean):
1nk (2.11)
nk1MATLAB: mean(x)
2、 样本方差(sample variance):
1nSknk122 (2.12)
13
3、 样本标准差(sample standard deviation):
S1nnk1k2 (2.13)
4、 修正的样本方差(repaired sample variance):
S*21nkn1k12 (2.14)
MATLAB: var(x)
5、修正的样本标准差(repaired sample standard deviation):
S*1nkn1k12 (2.15)
1.2.2 常用统计分布
1、2分布:设随机变量(random variable)1,2,,n相互、同分布,且k~N0,1,k1,2,,n,则随机变量
2k1n2k (2.16)
所服从的分布称为自由度是n的2分布,记做2~2n。 如果随机变量2~2n,那么有 1)2的概率密度为:
0,x0nx1122xe,x0 (2.17) pxnn222MATLAB: chi2cdf(x,n) 并且有
14
E2n (2.18) D22n (2.19)
x2 Distribution Density0.160.140.120.10.080.060.040.020from left side to right side: n = 5, 10, 20, 5001020304050607080 图2.1
2)定理2.1 (2分布的可加性)设随机变量k2~2nk,
k1,2,,n,则
n~nk (2.20)
k1k122k2n3)定理2.2 如果随机变量2~2n,那么
2n2nN0,1
L (2.21)
4)定理2.3(Fisher) 如果随机变量2~2n,那么
15
22n1N0,1 (2.22)
2L2、t分布:设随机变量,相互,且~N0,1,~2n,则随机变量
t (2.23) n所服从的分布称为自由度是n的t分布,记做t~tn,并称其为自由度为n的t变量。
1) 设随机变量t~tn,则其概率密度为:
n1n1222x,x (2.24) px1nnn2t Distribution Density0.40.350.30.250.20.150.10.050-5------- n = 5------- n = 50-4-3-2-1012345 图2.2
2)定理2.4 设随机变量t~tn,则
16
1x2limpxe, x (2.25) ntn23、F分布:设随机变量,相互,且~2m,~2n,则随机变量
Fn (2.26) m2称为自由度为m,n的F变量,所服从的分布称为的F分布,记做
F~Fm,n。
1)如果随机变量F~Fm,n,那么
1~Fn,m。 FF Distribution Density21.81.61.41.210.80.60.40.2000.511.522.5------- m = 10, n = 50------- m = 5, n = 1033.544.55------- m = 50, n = 200 图2.3
17
第二节 一元线性回归的若干问题
§2﹒1 简单线性回归分析
设随机变量y与随机变量x之间存在某种相关关系,对于x的取定的一组不完全相同的值x1,x2,xn,作实验得到n对观察结果:
xk,yk,k1,2,,n
(27)
其中yk是随机变量y在xxk时的观测结果。
2﹒1﹒1 简单线性回归模型及其基本理论假设
假设变量y与自变量x之间的相关关系可由下式表示:
yabx (28)
其中~N0,回归模型。
由(27)、(28)可得
2,a和b是未知(回归)参数,称式(28)为一元
ykabxkk (29)
其中k~N0,2,且相互。
ˆ,ˆ和b当利用样本xk,yk,k1,2,,n,得到参数a和b的估计a 那么对于给定的x,取
ˆx (30) ˆaˆby作为abx的估计,并称式(30)为y关于x的线性回归方程,其图形称为回归直线。
2﹒1﹒2 简单线性回归模型的基本特征
1、 由
ykabxkk,知yk是随机变量;
18
2、 EykEabxkkabxkEkabxk; 3、 DykDabxkkDk2; 4、 Covi,j0Covyi,yj0; 5、 ykEykykabxkk; 6、 yk~Nabxk,2。
2﹒1﹒3 回归参数的最小二乘估计
1、最小二乘估计准则:
ˆminyabx2 (31)ˆ,b Qa kka,bk1n5、 回归参数的最小二乘估计
ˆxaˆybnxkyknxy, (32)ˆk1bn2xknx2k11n1n其中xxk,yyk。
nk1nk13、回归参数的最小二乘估计的统计特性
ˆ都是y的线性组合;ˆ和b1) 线性性:akˆb ˆa和Eb2) 无偏性:Eaˆ的最小二乘估计都是a和b的所有线性无偏 ˆ和b3) 方差最小性:a 估计中方差最小的。
4) 2的估计、可决系数与相关系数定义:
19
总偏差平方和STyky
2k1nnˆk,误差平方和 SEyky2k1nˆky回归平方和 SRy2k1总偏差平方和的分解:STSESR由于ESEn22,所以MSE称为平均误差平方和,MSR定义:
SE是2的一个无偏估计。MSEn2SR称为平均回归平方和。12SRSR (33) STSRSE为可决系数,
2 (34) 或
xk1nkxyky2xk1nkxyk1n (35)
ky2为相关系数。
5)回归效果的显著性检验与方差分析表
由最小二乘法求得的线性回归方程是否具有实用价值,需要通过假设检验才能确定。如果线性假设符合实际,则b不应为零,因此,需要检验的假设为:
20
H0:b0,H1:b0 (1) F检验法 采用统计量:FMSR,当H0:b0为真时,F~F1,n2; MSE对于给定的显著性水平,如果FF11,n2,则应拒绝H0,认为线性回归效果显著;如果FF11,n2,则应接受H0,即认为线性回归效果不显著。
这一分析过程可由方差分析表给出:
方差分析表
误差来源 回归R 误差E 总和T 自由度 1 平方和S 均方和MS F SR MSR n2 n1 SE ST 表1 MSE MSRMSE (2) t检验法:
采用统计量
tˆbMSElxx, (36)
21
其中lxxxkx,当H0:b0为真时,t~tn2;对于给定的
2k1n显著性水平,如果ttn2,则应拒绝H0,认为线性回归效果显
2著;如果ttn2,则应接受H0,即认为线性回归效果不显著。
26) 回归参数的假设检验和参数估计 (1)回归参数b的假设检验和区间估计 记
ˆMSEs2blxxMSExk1n (37)
2kx那么
ˆbb ~tn2 (38)
ˆsbˆ0b假设检验H0:b0,H1:b0的统计量为t,因此,对于
ˆsb给定的显著性水平,如果ttn2,则应拒绝H0;否则接受H0。
2回归参数b的置信度为1001%的置信区间为:
ˆˆbtn2sb2 (39) (3) 回归参数a的置信区间:回归参数a的置信度为1001%的 置信区间为:
aˆtn2saˆ (40) 2
22
注:在做线性回归分析时,一般将分析结果记为:
ˆxˆaˆby (41)
ˆsaˆsa7) 预测
ˆ0可由回归方计算,对于任何给定的xx0,y0abx0的点估计y在小样本情况下,y0的置信度为1001%的置信区间为:
21x0xyˆtn2MSE101nlxx2 (42) 大样本时,y0的置信度为1001%的置信区间为:
yˆ0zMSE (43) 12§1.3常
双曲线(Hyperbola):
1bxay (44) yxaxb1) 对数曲线(Logarithm Curve)
yablnx (45)
2) 多项式曲线(Polynomial Curve)
ya0a1xamxm (46) 3) 指数曲线(Exponent Curve)
yaex (47)
5) S型曲线
23
y1 (48) xabe上述曲线图示如下:
§1.3问
某建材实验室在作陶粒混凝土强度实验中,考察每立方米混凝土的水泥用量xkg对28天后的混凝土抗压强度ykg/cm2的影响,并测得如下数据:
xi150160170180190200210220230240250260 yi56.958.361.6.668.171.374.177.480.282.686.4.7 表2 (1) 求y关于x的线性回归方程,并问:每立方米混凝土中增加1kg水泥时,可提高的抗压强度是多少?
(2) 检验线性回归效果的显著性0.05; (3) 求回归参数b的区间估计10.95; (4) 求x022.5kg时,y的预测值与预测区间。
ˆ0.30399x10.28,3 回归直线方程: yˆ20.2393 总体方差点估计: 总体方差区间估计: 0.303993.7283105 回归效果显著性检验:
1、利用F检验法:F5.52251034.96F0.951,n2 2、利用t检验法:t74.31372.2281t0.975n2
24
x022.5kg时,y的预测值: yˆx22.516.3626
预测区间: 16.36262.0323 Linear Regression Model90 85 80 75 70----------- Regression Beeline 65 60 55 140160180200220240260图2.4
Linear Regression Model100
90
80 70 60----------- Regression Beeline 50 40 30 20
10050100150200250300
25 图2.5
附程序:Linear_Regression_Model.m
%Linear Regression Model clear all x=150:10:260;
y=[56.9 58.3 61.6 .6 68.1 71.3 74.1 77.4 80.2 82.6 86.4 .7]; L=length(x);
[P,S]=polyfit(x,y,1); z=P(1).*x+P(2); fity=polyval(P,x); Prey=polyval(P,22.5) plot(x,y,'r*',x,fity) Meanx=mean(x); Meany=mean(y); Lxx=(L-1)*var(x); St=(L-1)*var(y); Sr=0; Se=0; for k=1:L
Se=Se+(y(k)-z(k))^2; Sr=Sr+(z(k)-Meany)^2; end
MSe=Se/(L-2); r=Sr/St
F=Sr/MSe % if P(1)=0 F~F(1,n-2). Sb=MSe/Lxx
T=abs(P(1)/(MSe/Lxx)^.5) % if P(1)=0 T~t(n-2). Falgfa=finv(0.95,1,L-2) Talgfa=tinv(0.975,L-2) Nalgfa=norminv(0.975,0,1)
title('Linear Regression Model')
gtext('----------- Regression Beeline') hold on
%Solving the prediction Interval t=20:.5:260;
26
prey=polyval(P,t); if L<45
prey1=prey-Talgfa*(MSe*(1+1/L+(t-Meanx).^2/Lxx)).^.5; prey2=prey+Talgfa*(MSe*(1+1/L+(t-Meanx).^2/Lxx)).^.5; else
prey1=prey-Nalgfa*(MSe)^.5; prey2=prey+Nalgfa*(MSe)^.5; end
plot(t,prey,t,prey1,'r',t,prey2,'r') P=poly2sym(P); P=vpa(P,5)
%H=polytool(x,y,1,0.05,22.5)
1.50 1.65 1.80 1.95 2.10 2.25 2.40 2.55 2.70 2.85 3.00 3.15 3.30 3.45 3.60 3.75 3.90 4.05 4.20 4.35 4.50 4.65 4.80 4.95 5.10 5.25 5.40 5.55 5.70 5.85
1.77 2.07 2.26 2.41 2.61 2.69 2.87 2.75 2.98 3.08 3.04 3.32 3.28 3.62 3.48 3.70 3.74 3.71 3.65 3.93 3.91 4.14 4.19 4.37 4.31 4.25 4.41 4.33 4.48 4.53 4.5 4Nonlinear Regression Model53.527 4.5342.53.5322.5----------- Regression Curve
Nonlinear Regression Model
76543----------- Regression Curve
210-1024681012ˆ1.05661.9553lnx, 回归曲线方程: yˆ20.2393 总体方差点估计: 总体方差区间估计: 0.303993.7283105 回归效果显著性检验:
28
1、利用F检验法:F5.52251034.96F0.951,n2 2、利用t检验法:t74.31372.2281t0.975n2
ˆx022.5kg时,y的预测值: yx22.516.3626
预测区间: 16.36262.0323 1.9553*x+1.0566
附程序:Nonlinear_Regression_Model01.m
%Linear Regression Model clear all
s=1.5:0.15:5.85;
y=[1.77 2.07 2.26 2.41 2.61 2.69 2.87 2.75 2.98 3.08 3.04 3.32 3.28 3.62 3.48...
3.70 3.74 3.71 3.65 3.93 3.91 4.14 4.19 4.37 4.31 4.25 4.41 4.33 4.48 4.53];
L=length(s); x=log(s);
[P,S]=polyfit(x,y,1); LP=length(P); z=zeros(1,L); for i=1:LP
z=z+P(i).*x.^(LP-i); end
fity=polyval(P,x); plot(s,y,'r*',s,fity)
title('Nonlinear Regression Model') gtext('----------- Regression Curve') Meanx=mean(x); Meany=mean(y); Lxx=(L-1)*var(x); St=(L-1)*var(y); Sr=0;Se=0; for k=1:L
29
Se=Se+(y(k)-z(k))^2; Sr=Sr+(z(k)-Meany)^2; end Se=Se
MSe=Se/(L-2)
F=Sr/MSe % if P(1)=0 F~F(1,n-2). T=abs(P(1)/(MSe/Lxx)^.5) % if P(1)=0 T~t(n-2). Falgfa=finv(0.95,1,L-2) Talgfa=tinv(0.975,L-2) hold on l=0.5:.5:12; t=log(l);
prey=polyval(P,t); if L<45
prey1=prey-Talgfa*(MSe*(1+1/L+(t-Meanx).^2/Lxx)).^.5; prey2=prey+Talgfa*(MSe*(1+1/L+(t-Meanx).^2/Lxx)).^.5; else
prey1=prey-Nalgfa*(MSe)^.5; prey2=prey+Nalgfa*(MSe)^.5; end
plot(l,prey,l,prey1,'r',l,prey2,'r') P=poly2sym(P); P=vpa(P,5)
附程序:Nonlinear_Regression_Model02.m
%Linear Regression Model clear all
x=1.5:0.15:5.85;
y=[1.77 2.07 2.26 2.41 2.61 2.69 2.87 2.75 2.98 3.08 3.04 3.32 3.28 3.62 3.48...
3.70 3.74 3.71 3.65 3.93 3.91 4.14 4.19 4.37 4.31 4.25 4.41 4.33 4.48 4.53] L=length(x);
30
n=input('The Degree n of The Polynomial Pn(x) n = '); [P,S]=polyfit(x,y,n); LP=length(P); z=zeros(1,L); for i=1:LP
z=z+P(i).*x.^(LP-i); end
fity=polyval(P,x); plot(x,y,'*',x,fity) Meany=mean(y); Lxx=(L-1)*var(x); St=(L-1)*var(y); Sr=0;Se=0; for k=1:L
Se=Se+(y(k)-z(k))^2; Sr=Sr+(z(k)-Meany)^2; end Se=Se
MSe=Se/(L-2)
F=Sr/MSe T=abs(P(1)/(MSe/Lxx)^.5) Falgfa=finv(0.95,1,L-2) Talgfa=tinv(0.975,L-2) P=poly2sym(P); P=vpa(P,5)
% if P(1)=0 F~F(1,n-2). % if P(1)=0 T~t(n-2). 31
因篇幅问题不能全部显示,请点此查看更多更全内容