文章详情_毕业论文网

登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文章详情

基于SVM的软件语句分类研究开题报告

 2022-01-16 19:37:46  

全文总字数:6722字

1. 研究目的与意义、国内外研究现状(文献综述)

(一)课题意义

科学软件的发展推动了科学实验的进行以及科学论文的发表。然而,科学软件并不是公认的学术成果。为了更好的评价科学软件,首先需要做的就是将软件从科学文献中识别出来。目前,关于命名实体识别的抽取很多,但是针对科学软件的抽取却很少,因此本研究最初旨在通过条件随机场(crf)进行软件命名实体的抽取,但是在实际实验过程中发现,软件在全文本数据中出现率极低,当数据量急剧增多时,crf的训练时间会大幅度增加,大量无用语句的输入严重影响了识别效率。

为此,本文提出使用支持向量机(svm)对句子进行分类,来区分软件语句和非软件语句,充分利用其作为二分类器的能力识别出包含软件的句子。由于软件语句和非软件语句分布的不均衡,导致支持向量机的识别效果变差。因此,本研究着重对svm在类分布不均衡的数据集上的分类进行探讨,一方面,为提高支持向量机的分类效果,另一方面,希望能够在crf识别软件中减少不必要语句的输入,提高其识别的性能,从而能够建立一套完整的科学软件的识别体系,弥补此类研究的空白,同时也为科学软件的评价提供依据。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

(一)研究目标

本研究以生物信息学作为研究学科,以生物信息学期刊作为研究对象,旨在利用svm对软件句子进行识别分类,在提高分类效果的同时,以期能够减少利用crf识别软件的数据量和时间,提高crf的识别效果。

(二)研究内容

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

(一)研究方法

(1)人工标注

在对svm的分类效果进行分析的时候,需要将svm分类出的结果与标准分类结果进行对比,从而计算出查准率和查全率。因此,需要人工对包含软件的句子进行标注,形成标准分类结果。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

特色或创新之处

(1)本研究的研究对象是生物信息学实验过程中使用到的软件,不再仅仅局限于图书情报领域,这使得该研究更具有了实际意义和应用前景。

(2)目前的研究大多局限于使用机器学习方法直接对命名实体进行识别,但是在一篇文献中,软件的出现率很低,直接进行命名实体识别,会导致大量无用语句的输入,而先使用svm进行软件语句的分类后,将包含软件的句子识别出来,再进行命名识别的识别,可以进一步提高识别的效果和效率。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 研究计划与进展

时间

研究内容

成果

2019年3月中旬-3月下旬

对1000篇文献进行软件实体的标注

软件标注完成

2019年4月-4月中下旬

采用特征选择方法、随机欠采样、集成SVM三种方法对不均衡数据集进行分类,完成初步研究

得出初步实验数据,并进行详细记录

2019年4月中下旬-5月

分析初步实验数据,根据结果再作出改进及尝试新方法

记录最终实验数据

2019年5月

根据实验数据,进行研究成果汇报,撰写毕业论文

完成论文

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图