基于SVM的软件语句分类研究开题报告
2022-01-16 19:37:46
全文总字数:6722字
1. 研究目的与意义、国内外研究现状(文献综述)
(一)课题意义
科学软件的发展推动了科学实验的进行以及科学论文的发表。然而,科学软件并不是公认的学术成果。为了更好的评价科学软件,首先需要做的就是将软件从科学文献中识别出来。目前,关于命名实体识别的抽取很多,但是针对科学软件的抽取却很少,因此本研究最初旨在通过条件随机场(crf)进行软件命名实体的抽取,但是在实际实验过程中发现,软件在全文本数据中出现率极低,当数据量急剧增多时,crf的训练时间会大幅度增加,大量无用语句的输入严重影响了识别效率。
为此,本文提出使用支持向量机(svm)对句子进行分类,来区分软件语句和非软件语句,充分利用其作为二分类器的能力识别出包含软件的句子。由于软件语句和非软件语句分布的不均衡,导致支持向量机的识别效果变差。因此,本研究着重对svm在类分布不均衡的数据集上的分类进行探讨,一方面,为提高支持向量机的分类效果,另一方面,希望能够在crf识别软件中减少不必要语句的输入,提高其识别的性能,从而能够建立一套完整的科学软件的识别体系,弥补此类研究的空白,同时也为科学软件的评价提供依据。
2. 研究的基本内容和问题
(一)研究目标
本研究以生物信息学作为研究学科,以生物信息学期刊作为研究对象,旨在利用svm对软件句子进行识别分类,在提高分类效果的同时,以期能够减少利用crf识别软件的数据量和时间,提高crf的识别效果。
(二)研究内容
3. 研究的方法与方案
(一)研究方法
(1)人工标注
在对svm的分类效果进行分析的时候,需要将svm分类出的结果与标准分类结果进行对比,从而计算出查准率和查全率。因此,需要人工对包含软件的句子进行标注,形成标准分类结果。
4. 研究创新点
特色或创新之处
(1)本研究的研究对象是生物信息学实验过程中使用到的软件,不再仅仅局限于图书情报领域,这使得该研究更具有了实际意义和应用前景。
(2)目前的研究大多局限于使用机器学习方法直接对命名实体进行识别,但是在一篇文献中,软件的出现率很低,直接进行命名实体识别,会导致大量无用语句的输入,而先使用svm进行软件语句的分类后,将包含软件的句子识别出来,再进行命名识别的识别,可以进一步提高识别的效果和效率。
5. 研究计划与进展
时间 | 研究内容 | 成果 |
2019年3月中旬-3月下旬 | 对1000篇文献进行软件实体的标注 | 软件标注完成 |
2019年4月-4月中下旬 | 采用特征选择方法、随机欠采样、集成SVM三种方法对不均衡数据集进行分类,完成初步研究 | 得出初步实验数据,并进行详细记录 |
2019年4月中下旬-5月 | 分析初步实验数据,根据结果再作出改进及尝试新方法 | 记录最终实验数据 |
2019年5月 | 根据实验数据,进行研究成果汇报,撰写毕业论文 | 完成论文 |