课 程 设 计 报 告
课程名称 多元统计分析
}
专 业 统 计 学 班 级 统计学0901 学 号 0109
姓 名 李宗藩 指导教师 戴 婷
2011年 12 月 19 日
】
湖南工程学院 课 程 设 计 任 务 书
课程名称 多元统计分析 课 题 多元统计分析
>
专业班级 统计学0901 学生姓名 李宗藩 学 号 0109 指导老师 戴 婷 审 批
-
任务书下达日期 2011 年 12 月 19 日 任务完成日期 2011年 12 月 30日
目录
一:课程设计准备……………………………………………………………3
(1) 建立数据库…………………………………………………………3 (2) 分析数据库…………………………………………………………3
二:聚类分析和判别分析……………………………………………………3
(1) 聚类分析的步骤………………………………………………3 (2) 判别分析的步骤………………………………………………3
(3) 聚类分析的结果………………………………………………4
(4) 判别分析的的结果及分析…………………………………4 三:因子分析……………………………………………………………………10 (1) 是否可进行因子分析的判断………………………………10 (2) 因子分析的步骤………………………………………………10 (3) 因子分析的结果及其分析……………………………………11 四:参考文献…………………………………………………………………16 五:总结…………………………………………………………………………17 六:评分表……………………………………………………………………18 七:附录表……………………………………………………………………19
一:课程设计准备
(1):建立和打开数据库
建立或打开数据文件,数据窗中输入待分析的数据,或利用File菜单中的Open功能打开已经存在的数据文件。《2010年各地区按主要行业分的全社会固定资产
投资》。
(2):分析数据库
样本数据来自中国2010年各地区按主要行业分的全社会固定资产投资,见附表。在这里选取了我国的三十一个省份作为样本,描述固定资产投资行业的变量有十九个:农、林、牧、副、渔业(x1),采矿业(x2),制造业(x3),电力、燃气及水的生产和供应业(x4),建筑业(x5),交通运输、储蓄和邮政业(x6),信息传输、计算机服务和软件业(x7),批发和零售业(x8),住宿和餐饮业(x9),金融业(x10),房地产业(x11),租赁和商务服务业(x12),科学研究、技术服务、地质勘察(x13),水利、环境、公共设施(x14),居民服务和其他服务业(x15),教育(x16),卫生、社会保障和福利业(x17),文化、体育、娱乐业(x18),公共管理和社会组织(x19)。
二:聚类分析和判别分析
(一)聚类分析的步骤
1. 按Analyze→Classify→K-means-cluster顺序单击菜单项,打开聚类分析
主对话框。
2. 选择分析变量送到右边的Variables栏中。
3. 在“Number of Cluster”中选择3,在Method选项中选择“Classify only” 4. 单击Save按钮,在对话框栏内选择Cluster membership选项, 5. 单击Option按钮,,在对话框Statistics栏内选择Initial cluster
centers选项,在对话框Missing Values栏内选择Exclude cases listwise选项
(二) 判别分析的步骤
1. 按Analyze→Classify→Discriminant顺序单击菜单项,打开判别分析主对话框。
2. 主对话框左边的矩形框中选定分类变量,并用上面一个箭头按钮将其移到“Grouping Variable”框中。然后用其下面的“Define Range” 输入最小变量和最大变量
3.选择判别变量送到右边的Independents栏中。在主对话框中选择“Enter independents together”
4. 在主对话框中单击“Statistics”按钮可以打开选择输出统计量的对话框,在对话框Description栏内选择Means选项,在对话框Function Coefficints栏内选择Fisher’s和unstandardized选项,在对话框Matrices栏内选择Within-groups covariance选项。
5. 在主对话框中单击“classification”按钮,打开选择分类参数与分类结果对话框,除系统默认之外,在对话框Display栏内选择和Casewise results选项和Summary table选项,在对话框Plots栏内选择三种。
6. 在主对话框中单击“Save...”可打开选择将各样品的判别结果保存于数据文件的对话框,选中“Predicted group membership”可保存各样品的预报(判别)分类;
选中“Discriminant scores”可保存各样品的典型判别函数值;
选中“Probabilities of group membership”可保存各样品的后验概率。
(三)聚类分析的结果
快速聚类整理表: 类别 第一类 地区 北京 天津 山西 内蒙古 黑龙江 上海 广西 海南 重庆 贵州 云南 陕西 甘肃 青海 宁夏 第二类 第三类 河北 辽宁 吉林 浙江 安徽 福建 江西 河南 湖北 湖南 广东 四川 江苏 山东 (四):判别分析的的结果
各类的均值: 地区 农、林、牧、渔业 采矿业 制造业 电力、燃气及水的生产和供应业 建筑业 第一类均值 第二类均值 第三类均值
交通运输、储蓄和邮政业 信息传输、计算机服务和软件业 批发和零售业 住宿和餐饮业 金融业 房地产业 租赁和商务、服务业 科学研究、技术服务和地质勘查业 水利、环境和公共设施管理业 居民服务和其他服务业 教育 卫生、社会保障和社会福利业 文化、体育和娱乐业 公共管理和社会组织 Eigenvalues(特征值)
Function 1 2 Eigenvalue (a) (a) Canonical % of CorrelatioVariance Cumulative % n .991 .935 a First 2 canonical discriminant functions were used in the analysis. 两个典型判别分析,特征值(Eigenvalue)分别为和,典型相关系数(Canonical Correlation)分别为和,
Wilks' Lambda Test of Function(s) 1 through 2 2 Wilks' Chi-squarLambda e .002 .127 df 38 18 Sig. .000 .003 根据Wilks' Lambda 表,可知:=和很小,近视分布=和,相伴概率为和,
小于,高度显著,所以各类的样本均值向量有显著性差异,因此判别有效。 Classification Function Coefficients分类函数系数
农、林、牧、渔业 采矿业 制造业 电力、燃气及水的生产和供应业 建筑业 Cluster Number of Case 1 2 3 .006 .005 .001 .017 .003 .010 .061 .062 .266
交通运输、储蓄和邮政业 信息传输、计算机服务和软件业 批发和零售业 住宿和餐饮业 金融业 房地产业 租赁和商务、服务业 科学研究、技术服务和地质勘查业 水利、环境和公共设施管理业 居民服务和其他服务业 教育 卫生、社会保障和社会福利业 文化、体育和娱乐业 公共管理和社会组织 农、林、牧、渔业 .012 .040 .001 .020 .011 .006 .055 .108 .266 .148 .116 .242 .002 .279 .427 .807 .443 .096 .084 Fisher's linear discriminant functions
Standardized Canonical Discriminant Function Coefficients
农、林、牧、渔业 采矿业 制造业 电力、燃气及水的生产和供应业 建筑业 交通运输、储蓄和邮政业 信息传输、计算机服务和软件业 批发和零售业 住宿和餐饮业 金融业 房地产业 租赁和商务、服务业 科学研究、技术服务和地质勘查业 水利、环境和公共设施管理业 居民服务和其他服务业 教育
Function 1 2 .574 .829 .446 .588 .157 .608 .680 .017 .321 .697 .366 .691
卫生、社会保障和社会福利业 文化、体育和娱乐业 公共管理和社会组织
.161 .315 .800 .396 判别函数
Y1=-2.655X1-0.631X2+1.775X3-0.574X4+0.574X5+2.729X6+0.829X7+2.457X8+0.446X9-1.115X10-0.858X11-0.872X12-0.587X13-2.348X14+1.335X15+2.582X16-2.159X17+0.161X18+0.315X19
Functions at Group Centroids(各组重心的函数值)
Cluster Number of Case 1 2 3 Function 1 2 .905 Unstandardized canonical discriminant functions evaluated at group means
Casewise Statistics(各数据统计量) 地区 Actual Group Highest Group Predicted Group 1 1 2 1 1 2 2 1 1 2 p P(G=g Squared Mahalanobd| f D=d) is Distance to Centroid 2 2 2 2 2 2 2 2 2 Second Highest Group Group P(G=g Squared | MahalanobD=d) is Distance to Centroid Discriminant Scores FunctiFunction 1 on 2 北 京 1 天 津 1 河 北 2 山 西 1 内蒙古 1 辽 宁 2 吉 林 2 黑龙江 1 上 海 1 2 2 1 2 2 1 1 2 2
江 苏 3 浙 江 2 安 徽 2 福 建 2 江 西 2 山 东 3 河 南 2 湖 北 2 湖 南 2 广 东 2 广 西 1 海 南 1 重 庆 1 四 川 2 贵 州 1 云 南 1 西 藏 1 陕 西 1 甘 肃 1 青 海 1 宁 夏 1 新 疆 1 3 2 2 2 2 3 2 2 2 2 1 1 1 2 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 2 1 1 1 1 2 2 2 1 2 2 2 2 2 2 2 2
根据此图可以大概看出各类的分布,便于粗略的观察。
Classification Results(a)(判别结果) Predicted Group Membership Cluster Number of Case Original Count 1 % 2 3 1 2 3 1 17 0 0 .0 .0 2 0 12 0 .0 .0 3 0 0 2 .0 .0 Total 17 12 2 a % of original grouped cases correctly classified. 预测分组恰好与实际分组是一致的,判对率为100%
分析
第一类:北京 天津 山西 内蒙古 黑龙江 上海 广西 海南 重庆 贵州 云南 陕西 甘肃 青海 宁夏 在主要行业分的全社会固定资产投资数额比较少,原因有:第一像北京 天津 上海 重庆这些发达的地区,尽管经济较发达,但由于这些区域面积较小,固定投资数额较小,第二:像其它省市都是中国经济落后地区,固定投资额就比较少,但这些地区的矿产资源较丰富采矿业投资数额和其它类差不多。大部分的省市处于中国的西北,西南地区,经济落后,需要加强各个行业的投资。
第二类:河北 辽宁 吉林 浙江 安徽 福建 江西 河南 湖北 湖南 广东 四川这些省在主要行业分的全社会固定资产投资数额相对比较多,原因有以下三点:第一,这些省大部分处于中部和沿海地区,经济较发达。第二,国家在十一五计划中实施中部崛起战略,促进了中部省的投资数额,第三:国家为保持沿海地区的经济发达,加强了投资。特别是房地产与制造业这两个产业投资数额非常大,主要因为这两个行业与国家的和人民的生活密切相关。
第三类:江苏 山东属于沿海地区,在主要行业分的全社会固定资产投资数额相当大,总投资额分别为亿元和亿元占全国总投资的比率分别为和,大力促进经济的发展。
三:因子分析:
(1)是否可进行因子分析的判断
在进行因子分析前,作KMO and Bartlett's Test,
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy. Bartlett's Test of Sphericity Approx. Chi-Square Df Sig. .778 171 .000 Kaiser-Meyer-Olkin Measure of Sampling Adequacy值为。渐近的x^2=较大,适合进行因子分析。
(2)因子分析的步骤
1. 打开spss软件
2. 按Analyze→Data Reduction→Factor顺序单击菜单项,打开因子分析主对话框。
3. 选择分析变量送到右边的Variables栏中。
4. 单击Descriptives按钮,在对话框Statistics栏内选择Initial solution选项,在Correlation Matrix选项选择Coefficients, KMO and Bartlett's Test of sphericity选项。
5. 在主对话框中单击Extraction按钮,相应的对话框中:
a) Method菜单中选择Principle components项,使用主成分分析方法。 b) Analyze栏中选择Correlation matrix项,分析相关矩阵。 c) Extract栏中选择Number of factors 4。
d) Display栏中选择Unrotated factor solution,显示未旋转的因子结
果。同样选择Scree plot,要求作出特征值的散点图。
e) Maximum iteration convagence 25,结束迭代的判据为到达最大迭代
次数25.
6. 主对话框中单击Score按钮。在相应的对话框中选择Save as variables,并在Method栏中选择Rregression,要求通过回归方法计算因子得分并把因子得分作为变量保存到数据文件中。同时选择Display factor score coefficient matrix显示因子得分系数阵。
7. 主对话框中单击Rotation按钮。在相应对话框中选择Method,并在Method栏中选择Varimax,在Display中选择Rotated solution和Loading plots选项。
8. 主对话框中单击Options按钮。在相应对话框中选择Missing Values,并在Missing Values栏中选择Exclude cases listwise选项。 9. 在主对话框中单击OK按钮执行运算。
(3)因子分析的结果及其分析
总方差分解Total Variance Explained
Component Initial Eigenvalues % of Variance .982 .842 .496 .468 .355 .266 .171 .098 .042 .038 Cumulative % Extraction Sums of Squared Rotation Sums of Squared Loadings Loadings % of Variance Cumulative % % of VariancTotal e Cumulative % 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Total .863 .788 .493 .401 .307 .274 .187 .160 .094 .0 .067 .051 .033 .019 .008 .007 Total Extraction Method: Principal Component Analysis.
为各成分的公因子方差表。在选择提取公因子的数量时,选择了提取前3个公因
子的方法。前3公因子可以解释总方差的近%,其余16因子只占%,可以说3因子可以解释总方差的绝大部分。
因子载荷阵Component Matrix(a)
Component 住宿和餐饮业 水利、环境和公共设施管理业 房地产业 批发和零售业 制造业 卫生、社会保障和社会福利业 居民服务和其他服务业 文化、体育和娱乐业 教育 科学研究、技术服务和地质勘查业 交通运输、储蓄和邮政业 租赁和商务、服务业 电力、燃气及水的生产和供应业 农、林、牧、渔业 金融业 公共管理和社会组织 建筑业 信息传输、计算机服务和软件业 采矿业 1 .922 .920 .911 .902 .9 .4 .862 .855 .833 .830 .770 .730 .663 .2 .636 .632 .544 .523 .293 2 .306 .100 .285 .165 .191 .421 .512 .478 .4 3 .076 .251 .294 .184 .478 .539 .052 .671 Extraction Method: Principal Component Analysis. a 3 components extracted.
方差最大正交旋转后因子载荷阵
Rotated Component Matrix(a) Component 批发和零售业 公共管理和社会组织 居民服务和其他服务业 科学研究、技术服务和地质勘查业 建筑业 1 .838 .803 .795 .788 .781 2 .360 .018 .350 .379 3 .296 .235 .283 .123 .098
文化、体育和娱乐业 制造业
住宿和餐饮业
交通运输、储蓄和邮政业
信息传输、计算机服务和软件业
水利、环境和公共设施管理业 房地产业
电力、燃气及水的生产和供应业
租赁和商务、服务业 卫生、社会保障和社会福利业 金融业 教育 采矿业
农、林、牧、渔业
.767 .761 .706 .180 .467 .553 .054 .501 .468 .325 .411 .124 .394 .422 .500 .618 .6 .881 .800 .766 .737 .676 .661 .618 .617 .197 .161 .150 .086 .169 .227 .071 .467 .456 .004 .481 .869 .828 Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a Rotation converged in 5 iterations. A为因子载荷阵
XAF1,F2,F3
'从上表可见,每个因子只有少数几个指标的因子载荷阵较大,因此可根据上表进行分类,将19个指标按高载荷分成三类,列于下表:
1 高载荷指标 批发和零售业 公共管理和社会组织 居民服务和其他服务业 科学研究、技术服务和地质勘查业 建筑业 文化、体育和娱乐业 制造业 住宿和餐饮业 交通运输、储蓄和邮政业 信息传输、计算机服务和软件业 水利、环境和公共设施管理业 房地产业 电力、燃气及水的生产和供应业 意义 2
租赁和商务、服务业 卫生、社会保障和社会福利业 金融业 教育 3 农、林、牧、渔业 采矿业 特征值散点图
特征值碎石图。可以看出前4特征值间的差异很大,其余的变化很小。从图中可以看出,取前4个因子是正确的。
各个因子得分及其排名 地 区 北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 F1 排名 19 13 5 31 25 3 12 18 27 2 因 子 得 分 F2 排名 12 21 8 17 14 5 22 19 6 3 F3 排名 29 23 5 4 2 18 11 6 31 30
浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆 15 4 23 10 1 9 6 11 28 21 14 16 24 29 30 17 7 8 20 22 26 4 18 7 16 23 11 10 9 1 13 27 20 2 25 15 30 24 31 29 28 26 28 13 24 20 9 1 16 12 21 14 27 17 3 15 8 26 7 19 25 22 10 分析:
从第三类农、林、牧、渔业、采矿业来看这些都是原始的基础行业,投资额相对其它行业的投资来说比较居中,既保障了人民生产生活所需要的必要基础物质,又为其它行业做出了很大的贡献,从全国各个地区来看,同等级别的城市投资额的差别不是很大,经济发达地区如北京,上海这些地区投资额相对来说比较少,像河北,山东,四川这些地区在农、林、牧、渔业投资额比较大,在山西,内蒙古,河南,这些地区矿产资源丰富,所以投资额相对交大。
第一类批发和零售业,公共管理和社会组织,居民服务和其他服务业,科学研究、技术服务和地质勘查业,建筑业,文化、体育和娱乐业,制造业,住宿和餐饮业这一类大多属于服务娱乐行业,这些行业大部分投资额相对较少,由于各个省市的地区规模与人口规模的不同,投资的数额差别比较大,例如批发和零售业河北,辽宁,山东,河南投资额比较大,最大山东亿元,而最少的重庆才亿元。 第二类交通运输、储蓄和邮政业,信息传输、计算机服务和软件业,水利、环境和公共设施管理业,房地产业,电力、燃气及水的生产和供应业,租赁和商务、服务业,卫生、社会保障和社会福利业,金融业,教育,这些属于第三产业,
在国名经济中占据很的地位,一部分的产业投资数额在整个国名经济投资中占有很大的一部分,由于现在经济的发展形势,如房地产业的投资数额达到了前所未有的数额,大大促进了房地产的发展,但根据今年房地产的发展情况却不容乐观,过快增长带来了副作用,但是这些行业确实给我们的经济和生活带来了很大的提高。
参考文献:
[1]于秀林 任雪松 编著 《多元统计分析》.
[2]中国统计年鉴,高祥宝 董寒青 编著 《数据分析与spss应用》
总结
首先我们由衷的感谢学校及老师提供给我们这样一次实际锻炼自己的机会,
经过两周的学习与实验,本次课程设计即将结束,总的来说,经过这门课程的学习,收获还是相当多的。从选择数据到数据分析,再到得出结论,不仅巩固了原来学到的知识,而且学到了书本上没有的知识。
多元统计分析是研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律性,利用多元分析的不同的方法对研究对象进行分类和简化。多元分析是实现做定量分析的有效工具。spss软件的应用,方便了我们对数据的统计与分析,对预测同类事物具有很大的作用,在国名经济的各个方面有着重大用途,如国家GDP的预测,股票的走势,各类物品价格的变动。。。
经过这次实践明白了只有在实际中反复的应用已学的知识,才能更好的掌握知识,学这门课程的知识用于实际,更好的了解社会的变化。
理学院课程设计评分表
课程名称: 多元统计分析
项 目 设计方案的合理性与创造性 设计与分析结果 设计报告书的质量 课程设计周表现情况 综合成绩
评 价
教师签名:
日 期:
(注:1.此页附在课程设计报告之后;2.综合成绩按优、良、中、及格和不及格五级评定。)
2010年各地区按主要行业分的全社会固定资产投资
地区 农、林、牧、渔业 电力、燃气及采矿业 制造业 水的生产和供应业 494 1602 2696 信息交通传输、运输、计算建筑业 储蓄机服和邮务和政业 软件业 1026 1020 1009 382 1032 1028 1596 1250 155 140 批发和零售业 住宿和餐饮业 金融业 北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆 地区 房地产业 243 12 租赁和商务、科学研究、技水利、环境和公共居民服务和其他服教育 卫生、社会保文化、体育和娱乐公共管理和社
服务业 术服务设施管理和地质业 勘查业 北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆
~
务业 障和社会福利业 203 16 业 会组织 2573 2386 2862 1020 1571 4077 2996 2453 1417 3957 2988 1595 1513 3805 1207 1506 2749 1041 1212 75
因篇幅问题不能全部显示,请点此查看更多更全内容