简答题自动评判技术的研究毕业论文
2021-04-02 21:15:41
摘 要
如今是计算机的时代,人们对于计算机的依赖已然达到了一种前所未有的程度。无数行业的实践证实,计算机能解决大量重复性的工作,确实地提高人们的生产效率。在教育事业方面,计算机的出现,尤其是多媒体技术的引入,大大地改善了教学质量,网络课程这一渠道也大大降低了人们的受教育成本,不过在教学成果验收的环节,也就是考试试卷批改过程中,计算机仍有很大的潜力可挖。目前,计算机进行客观题的评分的技术已经非常成熟,达到了能够实际运用的程度。我国的高考甚至都已经运用机读卡这种形式解决繁琐的选择题打分问题。不过在考试中,更为重要同时又相对复杂的主观题打分方面却还需要进一步研究。
主观题的特点重在“主观”二字,往往不像客观题那样有唯一的答案,答案有理即可酌情给分。因此,主观题的人工评分工作往往费时费力。本文研究的核心问题就是简答题及论述题的自动打分问题。为解决这一问题,作者进行了如下工作:
1、深入了解了当今的简答题自动评判技术以及其发展现状,掌握解决英文文本自动评分的一般解决方案;
2、针对英文文本简答题打分这一具体的应用情境与的特殊性质,对文本预处理、关键词提取等诸多环节提出了一定的创新性改进措施;
3、研究LDA主题模型训练时的参数调整策略,着重研究了语料库选用与主题个数的选取问题;
4、实现了英文简答题的评分功能,并将其运用于一个web应用系统。
关键词:简答题;自动评分;文本相似度;主题模型;LDA;
Abstract
Human has entered the era of computer science .Human’s dependence on computer has reached an unprecedented level. Numerous industrial practice has confirmed that computers can solve a lot of repetitive work, and greatly improve people's production efficiency. In the case of education, the emergence of computers, especially the emergency of multimedia technology, has greatly improved the quality of education, besides, net-courses has greatly reduced people's education costs, but during the process of correcting test papers, computer still has great potential to be tapped. At present, computer has did a good job on the grading of objective test and such technique has devoted into application. China's college entrance examination is using the machine-readable card to solve the problem of tedious grading mission on choice questions. However, even subjective questions are relatively more important and complex, the technique of grading such questions still needs further study.Subjective questions’ most unique characteristic is "subjective", which means they often don’t have the only answer. An answer could get few scores because it is reasonable in certain aspect. Therefore, the manual grading task of subjective questions is often time-consuming and laborious. The core problem which this paper focuses on is automatic grading of short answer and argument. In order to solve this problem, the author did these following work:
1、Have a good knowledge of the current situation of automatic answering techniques and their development status and learned the common strategy to solve this kind of problem;
2、Puts forward some innovative improvement measures in text preprocessing and keyword extraction towards the application situation and the special nature of the English short answer grading. ;
3、Study the parameter adjustment strategy of the training of LDA model, making a great effort on studing the selection of corpus and the appropriate number of topics;
4、 Achieve a English short answer grading function, which is successfully applied to a web application.
Keywords:Short answer; Automatic grading; Text similarity; Topic model; LDA;
目 录
摘 要 I
Abstract II
第1章 绪论 1
1.1研究背景与意义 1
1.2国内外研究现状 1
1.2.1 国外研究现状 2
1.2.2 国内研究现状 3
1.3本文研究内容 4
1.4 人工评分数据来源 4
1.5本文组织结构 4
第2章 针对简答题的英文文本预处理 6
2.1英文文本预处理流程 6
2.2简答题答案的预处理方案 7
2.3 预处理的具体实现 8
2.3.1词形还原的实现 8
第3章 基于TF-IDF的关键词提取 10
3.1 常用的关键词提取算法 10
3.1.1 概述 10
3.1.2 经典TF-IDF算法 10
3.1.3 P-TF-IDF算法 11
3.2 针对简答题答案的关键词提取方案 12
3.3算法实现以及提取效果 13
3.3.1语料库的选用 13
3.3.2构建idf字典 14
3.3.3 标准tf-idf值的计算 14
3.3.4对标准tf-idf值进行加权 14
3.3.5提取效果 15
第4章 基于主题模型的短文本相似度计算方法 16
4.1主题生成模型 16
4.2 LDA算法简介 16
4.3 LDA算法的实现 18
4.4 训练参数的调整 19
4.5 文本向量化与相似度计算 23
4.5.1文本向量化 23
4.5.1 余弦相似度 24
第5章 语义相似度计算方法集成应用 25
5.1 系统分析 25
5.1.1 概述 25
5.1.2 系统功能结构 28
5.2 系统设计 28
5.2.1 数据库设计 28
5.2.2 功能设计 30
5.2.3 界面设计 32
5.3 系统实现 35
第6章 总结与展望 38
6.1全文总结 38
6.2下一步工作 38
参考文献 40
致 谢 41
第1章 绪论
1.1研究背景与意义
如今是计算机的时代,人们对于计算机的依赖已然达到了一种前所未有的程度。无数行业的实践证实,计算机能解决大量重复性的工作,确实地提高人们的生产效率。在教育事业方面,计算机的出现,尤其是多媒体技术的引入,大大地改善了教学质量,网络课程这一渠道也大大降低了人们的受教育成本,不过在教学成果验收的环节,也就是考试试卷批改过程中,计算机仍有很大的潜力可挖。目前,计算机进行客观题的评分的技术已经非常成熟,达到了能够实际运用的程度。我国的高考甚至都已经运用机读卡这种形式解决繁琐的选择题打分问题。不过在考试中,更为重要同时又相对复杂的主观题打分方面却还需要进一步研究。
试卷批改主要分为客观题批改和主观题批改两大部分。目前,客观题的打分技术已经非常成熟,已经达到了能够实际投入使用的程度。普通高等学校招生全国统一考试,也就是高考,作为我国的第一大考,已经实际地运用了机读卡这种形式解决繁琐的选择题打分问题,可见机器打分在这一方面已经达到了相当高的水准。不过在考试中,更为重要同时又非常复杂的主观题打分系统却还需要进一步完善。