中文论述题自动评分系统的设计与实现毕业论文
2021-11-05 19:32:24
摘 要
在我们的生活中充满了很多考试,比方说期中考试、期末考试、资格证书考试等等。目前我们所知道的改卷方式是选择题用机器批改,而简答题、辨析题这种论述题需要教师人工批改,这种改卷方式虽然在一定程度上减轻了教师的负担,但是教师仍然需要面对大量的试卷论述题批改任务。时代在发展、在改革,教育也需要发展和改革,所以将教师从繁重的批卷工作中释放出来,实现论述题的自动评分也是教育领域一直研究的课题。
本文研究和分析了论述题的特点,认为答案中的得分点是整个评分过程中的关键所在。首先根据一定的算法提取出参考答案和学生答案中的得分点,对其进行比较,计算出相似度,然后根据相似度和题目总分就可以推断出学生答案的分数。为了计算得分点词语之间的相似度,以及考虑到词语中同义词这类特殊的词语的特性,本文将基于《知网》和《同义词词林》的词语相似度计算方法综合利用,该方法不但解决了知网中同义词无法计算相似度的问题,还扩大了词语覆盖率,总共包含了八万多个词汇量。此外在提取关键词时,规定了可以人工设置关键词的个数n,选取对文本最重要的前n个词语,解决了自动评分时计算时间过长的问题。
最后利用上述方法实现了中文论述题自动评分系统,测试了100份2016年思想政治理论考研材料题,基本实现了系统的需求和功能,且测试结果准确率较高。
关键词:自动评分;关键词;知网;同义词词林
Abstract
There are many examinations in our life, such as mid-term examination, final examination, qualification certificate examination, etc. at present, we know that the way to change the examination paper is to use the machine to correct the multiple choice questions, and the discussion questions such as short answer questions and discrimination questions need the teacher's manual correction. Although this way of changing the examination paper reduces the teacher's burden to a certain extent, it still requires the teacher to spend a lot of time and precision I will try my best to grade the paper. In the development and reform of the times, education also needs development and reform, so it is a research topic in the field of education to release teachers from the heavy work of marking papers and realize the automatic scoring of argumentative questions.
This paper studies and analyzes the characteristics of the argumentative questions, and considers that the score point in the answer is the key point in the whole scoring process. The reference answer and the score point in the student's answer are extracted and compared one by one. Then, according to the similarity between the reference answer and the score point of the student's answer, the score of the student's answer can be inferred. In order to calculate the similarity between the score words, and considering the characteristics of the synonyms in the words, this paper comprehensively uses the word similarity calculation method based on HowNet and synonym forest. This method not only solves the problem that the synonyms in HowNet can not calculate the similarity, but also expands the word coverage, including more than 80000 vocabulary. In addition, when extracting keywords, the number of keywords n that can be set manually is specified, and the first n words that are most important to the text are selected, which solves the problem of too long calculation time in automatic scoring.
Finally, using the above methods to achieve the automatic scoring system of Chinese argumentative questions, 100 material questions of 2016 ideological and political theory are tested, which basically achieve the system requirements and functions, and the accuracy of the test results is high.
Key Words:automatic scoring; keywords; hownet; synonym forest
目 录
第1章 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状 1
1.2.1 国外研究现状 1
1.2.2 国内研究现状 2
1.3 论文研究目标、内容、拟采用的技术方案及措施 3
1.3.1 研究目标 3
1.3.2 研究内容 3
1.3.3 拟采用的技术方案及措施 4
1.4 论文组织结构 4
第2章 相关理论介绍 6
2.1 文本预处理 6
2.1.1 中文分词 6
2.1.2 停用词处理 6
2.1.3 词性标注 7
2.2 关键词提取 7
2.2.1 TF-IDF算法 7
2.2.2 TextRank算法 8
2.2.3 主题模型算法 9
2.3 文本相似度计算 9
2.4 本章小结 10
第3章 本文词语相似度计算方法 11
3.1 基于《知网》的词语相似度 11
3.1.1 《知网》介绍 11
3.1.2 基于《知网》计算词语相似度 12
3.2 基于《同义词词林》的词语相似度 15
3.2.1 《同义词词林》介绍 15
3.2.2 基于《同义词词林》计算词语相似度 16
3.3 综合《知网》和《同义词词林》的词语相似度 17
3.4 本章小结 19
第4章 中文论述题自动评分系统的设计与实现 20
4.1 系统需求分析 20
4.1.1 功能性需求 20
4.1.2 非功能性需求 20
4.2 系统流程 20
4.3 系统设计 21
4.3.1 总体框架设计 21
4.3.2 系统模块设计 22
4.4 系统实现 22
4.4.1 交互界面模块 22
4.4.2 文本处理模块 23
4.4.3 相似度计算模块 24
4.5 本章小结 24
第5章 系统测试与结果分析 25
5.1 系统测试 25
5.1.1 测试环境 25
5.1.2 测试集 25
5.1.3 测试过程 25
5.2 对比实验 28
5.2.1 实验过程 28
5.2.1 实验结果 28
5.3 结果分析 29
5.4本章小结 30
第6章 总结与展望 31
6.1 总结 31
6.2 展望 31
参考文献 32
致 谢 34
第1章 绪论
1.1 研究背景及意义
随着时代的发展和科技的进步,计算机技术被越来越多的应用到人们的日常生活中,影响着人们的方方面面。教育作为国家重视的关键领域,也在科技进步的浪潮下朝着信息化、智能化的方向转变。例如传统的教学方式中教师只能在课堂上传授学生知识,而如今MOOC、微课堂、网易公开课等学习平台的出现,打破了空间、时间上的限制,让学生能够更加方便的学习新知识。还有传统的考试方式需要打印大量的卷子,让学生在规定的地点完成考试,而在线考试系统就可以解决传统考试中占用空间、时间,花费大量的纸张和金钱的问题。尽管教育领域在许多方面已经有了巨大的改革与进步,但是目前国内自动评分领域的发展仍然不够成熟,只能利用自动评分系统批改选择题、填空题这类客观问题,而对于论述题这类主观问题尚且不能利用自动评分系统进行批改。
在传统的手工阅卷时代,我们需要花费大量的时间和人力去批改试卷,而且对于论述题这种开放程度较高的问题,卷面整洁程度、不同教师的认知差异以及心情和环境都会对其评分造成一定的影响,从而降低评分的公平、公正性。如果实现了自动评分,那么教师就可以摆脱繁琐而劳累的批阅工作,并且消除教师认知差异的影响,使评分的结果更加公正和准确。因此,如何利用现有的计算机技术实现和改进中文论述题的自动评分也成为了许多专家学者钻研的重要课题。
实现自动评分系统对我国教育领域以及社会公平公正有着十分重大的意义,它可以改变传统教学中批改试卷的方式,减轻教师阅卷改卷的负担,促进教育领域的改革和发展。同时它减少了教师在批改过程中出现的不公平、不公正现象,也减少了批改试卷时出错的概率,大大增加了考试对于每个人的公平公正性。此外通过自动评分系统还可以完善教育系统中的个人成绩档案,避免因丢失试卷而无法记录分数的问题,从而更加清晰的看出学生的进步情况。