登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 理工学类 > 自动化 > 正文

基于支持向量机的文本分类研究毕业论文

 2022-01-26 12:54:25  

论文总字数:18723字

摘 要

近几十年以来,随着互联网技术和计算机技术的飞速发展,人们可以在网络上获取海量的信息,这些信息大多数是以文档的形式出现的,但是这些文章有时还存在着很多无用的、甚至危害读者身心健康的信息,所以如何准确快速获得对自己有用的文章或信息非常关键。首先,文本呈现高维特点,特征选择难,无关的冗余会对分类结果造成不利的影响,如何把非结构化的文本数据转化为向量模型、正确选择特征是一个难点。其次,分类模型的合理选择与优化也是解决文本分类问题的关键所在。本文从以下几个方面对文本分类进行研究:

首先,对文本进行预处理,应用结巴(jieba)分词工具把文本进行分词,然后去除停用词,初步降低文本的维数。

其次,针对特征选择难的问题,用TF-IDF计算特征词的权重,生成词频矩阵后正确选择特征,实验表明,这种方法能够正确选择特征从而提高分类准确率。

然后,对基于支持向量机(SVM)和贝叶斯的分类模型展开研究,将四种不同的核函数用于SVM模型,为了让分类效果最佳,同时优化惩罚因子c。实验表明,选择最优参数的SVM模型分类效果优于贝叶斯模型。

关键字:文本分类 SVM TF-IDF 文本预处理

ABSTRACT

In recent decades, with the rapid development of Internet technology and computer technology, people can get a lot of information on the Internet. Most of this information appears in the form of documents, but sometimes there are many useless and even harmful information in these articles, so how to accurately and quickly obtain useful articles or information is very critical. Above of all informaition, tIrrelevant redundancy will adversely affect the classification results. How to convert unstructured text data into vector models and correctly select features is a difficult problem. Secondly, the reasonable selection and optimization of the classification model is also the key to solve the text classification problem.This paper studies text classification from the following aspects:

Firstly, the text is preprocessed, and the text is segmented by using the jieba segmentation tool. Then the stop words is removed to reduce the dimension of the text.

Secondly, to solve the problem of high text dimension and difficult feature selection, TF-IDF is used to calculate the weight of feature words and generate word frequency matrix to select features correctly.

Then, the classification model based on support vector machine (SVM) and Bayesian is studied, and four different kernel functions are applied to SVM model to optimize the classification effect and penalty factor C at the same time. Experimental results show that SVM model with optimal parameters is better than Bayesian model.

Keywords: Text classification;SVM;TF-IDF;Text Preprocessing

目 录

摘 要 I

ABSTRACT II

第一章 绪论 1

1.1课题的研究目的与意义 1

1.2国内外研究现状 2

1.2.1 SVM算法的研究现状 2

1.2.2 文本分类的研究现状 3

1.3 论文的研究内容 4

第二章 文本分类相关理论与技术 5

2.1 文本分类一般过程 5

2.2文本预处理 6

2.2.1处理文本标记 6

2.2.2中文分词 6

2.2.3过滤停用词 8

2.3特征处理 9

2.4文本分类性能评估方法 11

第三章 文本分类方法对比研究 12

3.1贝叶斯算法 12

3.2 k邻近算法 13

3.3 支持向量机算法 14

3.3.1支持向量机概述 14

3.3.2线性可分支持向量机 14

3.3.3线性不可分支持向量机 16

3.3.4核函数 17

3.3.5惩罚因子c 18

第四章 基于支持向量机的文本分类设计与实现 19

4.1 数据说明 19

4.2 系统开发环境 20

4.3 文本预处理实现 21

4.3.1文本分词 21

4.3.2去停用词 22

4.4 特征提取 23

4.5 SVM模型实现文本分类并调参 24

4.5.1不同核函数、c、r对文本分类准确率的影响 24

4.5.2不同核函数的分类性能比较 28

4.6 不同分类模型比较 29

第五章 总结与展望 31

5.1工作总结 31

5.2工作展望 31

致谢 33

参考文献 34

附录 36

第一章 绪论

1.1课题的研究目的与意义

在互联网智能发展的世界,社会各个方面也进入了高速发展的阶段,与此同时,互联网上包含的海量的信息,包括文档、视频、声音图像等。根据中国互联网最近的发展基本状况的报告中我们可以知道,在中国境内使用互联网的人数已经高达5.5亿,而且新用户增加的数量每年约为2000万。随之衍生出的各种新闻媒介和互联网巨头如百度、微博等,每天产生数不胜数的新闻和信息。

图 1-1 中国网民和互联网普及率

请支付后下载全文,论文总字数:18723字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图