基于SVM的软件语句分类研究开题报告

2022-01-16 19:37:46

全文总字数：6722字

1. 研究目的与意义、国内外研究现状（文献综述）

（一）课题意义

科学软件的发展推动了科学实验的进行以及科学论文的发表。然而，科学软件并不是公认的学术成果。为了更好的评价科学软件，首先需要做的就是将软件从科学文献中识别出来。目前，关于命名实体识别的抽取很多，但是针对科学软件的抽取却很少，因此本研究最初旨在通过条件随机场(crf)进行软件命名实体的抽取，但是在实际实验过程中发现，软件在全文本数据中出现率极低，当数据量急剧增多时，crf的训练时间会大幅度增加，大量无用语句的输入严重影响了识别效率。

为此，本文提出使用支持向量机(svm)对句子进行分类，来区分软件语句和非软件语句，充分利用其作为二分类器的能力识别出包含软件的句子。由于软件语句和非软件语句分布的不均衡，导致支持向量机的识别效果变差。因此，本研究着重对svm在类分布不均衡的数据集上的分类进行探讨，一方面，为提高支持向量机的分类效果，另一方面，希望能够在crf识别软件中减少不必要语句的输入，提高其识别的性能，从而能够建立一套完整的科学软件的识别体系，弥补此类研究的空白，同时也为科学软件的评价提供依据。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容和问题

（一）研究目标

本研究以生物信息学作为研究学科，以生物信息学期刊作为研究对象，旨在利用svm对软件句子进行识别分类，在提高分类效果的同时，以期能够减少利用crf识别软件的数据量和时间，提高crf的识别效果。

（二）研究内容

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究的方法与方案

（一）研究方法

（1）人工标注

在对svm的分类效果进行分析的时候，需要将svm分类出的结果与标准分类结果进行对比，从而计算出查准率和查全率。因此，需要人工对包含软件的句子进行标注，形成标准分类结果。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 研究创新点

特色或创新之处

（1）本研究的研究对象是生物信息学实验过程中使用到的软件，不再仅仅局限于图书情报领域，这使得该研究更具有了实际意义和应用前景。

（2）目前的研究大多局限于使用机器学习方法直接对命名实体进行识别，但是在一篇文献中，软件的出现率很低，直接进行命名实体识别，会导致大量无用语句的输入，而先使用svm进行软件语句的分类后，将包含软件的句子识别出来，再进行命名识别的识别，可以进一步提高识别的效果和效率。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

5. 研究计划与进展

时间	研究内容	成果
2019年3月中旬-3月下旬	对1000篇文献进行软件实体的标注	软件标注完成
2019年4月-4月中下旬	采用特征选择方法、随机欠采样、集成SVM三种方法对不均衡数据集进行分类，完成初步研究	得出初步实验数据，并进行详细记录
2019年4月中下旬-5月	分析初步实验数据，根据结果再作出改进及尝试新方法	记录最终实验数据
2019年5月	根据实验数据，进行研究成果汇报，撰写毕业论文	完成论文

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码