主成分分析法在学生综合评价中的应用
2022-10-26 10:56:11
论文总字数:16074字
摘 要
本文针对在校学生的综合评价,应用主成分分析法对多项不同评价指标进行综合处理,产生一种新的评价方法与模型,用较少的数据即可实现对学生的综合性评价。
生活在三维空间中的我们很难对四维以上的数据进行直观可视的数据分析。主成分分析法是一种对多项数据评价指标进行分析处理、降低维度的方法。它能够在降低数据维度的同时,绝大部分地保留降维之前的数据的原始信息,使之以更少的数据维度反应出所需观察对象的性质和属性。将主成分分析法应用于学生综合素质评价,可以将多个综合指标合并成新的少量评价指标,可以更加整体、快捷和清晰地反映出学生的学生整体素质水平,从而避免传统分析只注重成绩而忽视其他方面的片面性。
关键词: 主成分分析法PCA ;MATLAB ;学生综合素质评价
目 录
摘要 III
第一章 引 言 1
1.1 选题背景 1
1.2 选题目的 1
第二章 主成分分析方法 2
2.1 主成分分析方法介绍 2
2.2 使用主成分分析流程 3
第三章 数据来源与处理 4
3.1 数据来源 4
3.2 数据处理软件 5
3.3 数据标准化处理和标准化矩阵 5
3.4 协方差和协方差矩阵 6
3.5 特征值和特征向量 7
3.6 数据分析处理 7
第四章 评价模型建立 8
4.1 MATLAB GUI界面功能实现 8
4.2 主成分的分析 19
4.3 主成分的选取与评价模型的建立 23
第五章 学生素质评价 25
5.1 使用模型评价 25
5.2 与传统方法比较 27
致 谢 28
参考文献 28
引 言
1.1 选题背景
在传统的学生评价系统中,需要评价一个学生的各项素质时,起到决定作用的必然是学习成绩。而其他的重要指标用于学生评价,如:身体素质,政治思想等,往往只是在期末总评时,由老师的主观印象打分,给与优良中差的不同等第;学生的其他表现由于师生关系角度不同或因学生数量众多,无法做到详实、正确地评价。在学生成长的过程中,随着学生的成长,学生对金钱、认识、世界的看法正在形成,往往会因为一些心理或生理上的问题苦恼,进而影响学生的发展。学习成绩优异但沟通交往能力或心理调节能力远低于其他同龄人的现象屡见不鲜,评价指标的单一化或是导致学校老师和家长忽视的重要诱因。
在如今的大学阶段,评价一个学生的优异是由成绩绩点为主要指标,辅以在校期间参加的活动、获得的奖项成绩等结合为综合成绩进行评价,是较为准确与可行的。是作为评奖评优、三好学生、奖学金发放和确定未来保研名额的重要评价手段。同时也因学生的思想表现,体育素质等评价指标不易量化评级与操作,只是作为辅助的参考手段,也忽视了一部分同学在此表现优异的可能。由于每个人都是复杂多样的,每一名学生都是优点与缺点的共同体,在强调综合素质发展的今天,评价学生的指标已绝绝不能仅是看学习成绩,学生的综合素质在学生的评价中起到了更为重要的作用。无论是德智体美劳全面发展,还是注重在学生成长中身心的共同成长,都应是学校和家长花费更多时间与精力去关心的。
1.2 选题目的
本文试想通过了解主成分分析算法的主要思想,制作一个图形界面程序,用于对需要分析的数据文件进行提取和分析,将结果予以图形展示,便于建立相应的评价模型,便于主成分分析后续的选择与进行。
建立评价模型后,分析总结学生素质评价的多项评价指标。通过主成分分析法把评价指标的维度由多数化为少数几项,令获得的结果能更清晰直观地反映出学生的素质的方方面面,考虑学生学习成绩上差异的同时,更多考虑学生在思想、身体上的差异,用一种更全面的分析方法对学生评价起到帮助作用,在一定程度上优化实行的大学学生综合评价系统。
第二章 主成分分析方法
2.1 主成分分析方法介绍
作为统计学多因素分析方法的其中之一,主成分分析法在研究同种事物间具有一定相关性的不同变量时很有效果。
Principal,即主要的;Component,即组成部分;Analysis即分析,这3个词组合为主成分分析,缩写为PCA。主成分分析不仅在统计学中使用,也常在计算机学与经济学中使用。PCA由英国科学家、统计学之父Karl Pearson(K·皮尔森)提出,用于对非随机变量的分析研究;后经过美国科学家Harold Hotelling(哈罗德·霍特林)扩展至对随机变量的分析研究。主成分分析方法利用一定的数据处理,将坐标投影至有较多信息量的新坐标方向上,从而降低数据矩阵的维度。既保存原始数据矩阵的相关性,又大大降低分析需要考虑的指标,从而达到简化分析的目的。在实际应用之中,为了掌握分析对象之间全面的关系情况,需要研究其众多的相关因素变量指标。有时,由于变量因素的数量过多,不仅加大了分析难度,也弱化了成分相关变量的关系。使用主成分分析法,将原来的评价指标通过数据处理方法,按系数组合成新的、少量的评价指标,使用小部分的综合指标即可尽可能多地显示原来数据之间的关系。
以MATLAB中的鸢尾花数据为例,为了获取该品种花的特性,将不同品种间的花瓣长度与宽度等多项指标,通过将指标两两一组绘制散点图。
图1.1 鸢尾花特征数据散点图
可以直观地看出在花瓣长度和宽度组成的图中,数据点均匀分布在一直线两侧的椭圆中,由于分布呈线形,且在其正交向量的方向向量上的数据量较少,使用该直线作为新的评价指标,即可实现用少量数据反映整体的情况。
图1.2 鸢尾花长度宽度散点图
这种对多个数据进行分析、降维的处理方法就是主成分分析法PCA。
2.2 使用主成分分析流程
- 首先,预处理将要分析的数据,常用方法有:标准化、去均值化等,从而使数据便于计算。本文使用标准化处理。
- 将处理过的数据矩阵化为协方差矩阵或相关系数矩阵,使数据化为方阵,从而便于之后的计算。本文中利用协方差矩阵对获得的标准矩阵进行处理。
- 对属于协方差矩阵的特征值进行分析,代入求特征值公式。求出特征值和特征向量,并根据求得的特征值和特征矩阵求出主成分方差贡献率。
- 根据第3步中的特征值和特征向量,求出每个主成分各自的方差贡献率和他们加在一起的方差贡献率。当累积的和在80%-85%以上时,即可使用这些主成分反应出原始数据之间的关系。
- 求出原矩阵在降维后,投影至新坐标轴的矩阵,即载荷矩阵。使用载荷矩阵可以方便的求出各个主成分的得分。
- 使用降维后的载荷矩阵,将原来的数据带入进行计算,找出可能存在的实际意义。
数据来源与处理
3.1 数据来源
数据来自东南大学成贤学院电子与计算机工程学院2018-2019学年度,对本班41名同学的成绩进行统计,共使用了9项评价标准,分别是:学分绩点、专业成绩、英语成绩、体测成绩、创新实践、评奖评优、升学就业、思政学分和文明宿舍。对除了评奖评优以外其他评价标准均采用了和课程成绩5分学分制相同的分制,按照东南大学成贤学院大学生手册和学院的学分管理办法,按照传统评价的优秀、良好、中等、及格和不及格的不同,依次给予4.7、3.7、2.7、1.7和0学分。
- 学分绩点来自综测排名中的总学分加权平均分。
- 专业成绩来自本专业的专业课程成绩加权平均分。
- 对英语成绩的判定上,由于选取同学均通过《大学英语(四)》考试,定为及格标准。在此基础上,大学英语CET-4考试通过者定评分为良好,大学英语CET-6考试通过者定评分为优秀。
- 在体育成绩上,按《毕业班体质测试成绩》中的优良中差等第给予评分。
- 在文明宿舍上,由于所抽取的同学所在宿舍分数均在80分(良好)以上,定评为文明宿舍的宿舍为优秀。
- 创新实践按《创新实践学分表》中的等第,对选取同学的成绩按五分制进行统计。
- 评奖评优按获奖级别和获奖等第的不同,将三好学生、奖学金、学科竞赛等不同的获奖,按照奖项层次的不同,给予不同等级的加分,最后累计分数。(0分定为及格,1-2分定为中等,3-4分定为良好,5分及5分以上定为优秀)。
- 升学就业是在本次数据统计截止之前,已经取得就业实习和获得升学的定为及格,未获得的定为不及格。
- 思政学分是按照“思政课”课外实践学分中的社会实践、公益活动、聆听讲座、文体活动或阅读经典的学分进行统计。
- 按照学生的姓名为矩阵的列,9项评价指标为行,生成41*9的原始数据矩阵。
3.2 数据处理软件
本文的数据处理使用的软件是MATLAB 2016a。
MATLAB是由matrix(矩阵)和laboratory(工厂)两个单词拼接,意义为矩阵工厂。它作为一款商用数学软件,开发者是美国的MathWorks公司,使用它可以很便捷的用于科学计算、可视化和交互式程序的设计开发工作。通过使用MATLAB,大大简化了对多项数据表进行的各种操作。使用绘图功能,可以直观地表现出需要处理的数据之间的关系,对于统计学的发展和帮助有非常重大的意义。
剩余内容已隐藏,请支付后下载全文,论文总字数:16074字