登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 理工学类 > 自动化 > 正文

基于FOA--SVM的文本分类系统分析毕业论文

 2022-03-03 20:47:55  

论文总字数:20549字

摘 要

随着信息时代的到来,人们正面对着越来越多的文本信息,而如何在短时间内从这些信息中筛选得到想要的消息成为了亟待解决的问题。查找对比国内外相关研究发现,文本分类技术在解决这一问题上的实用性较强,因此,研究文本分类具有一定的现实意义。

本文首先学习了中文切词技术的相关原理,选用简洁易懂的结巴分词对文本进行分词和去停用词的预处理,过滤掉无用的文本内容,并使用空间向量模型将文本表示成计算机能够读懂的形式;然后,从理论上分析了各主流的特征选择方法的特点,并通过实验分析对比选取信息增益方法来筛选文本区分力强的特征项;此外,针对各特征项对文本的重要程度的不同,研究TFIDFIG权重方法并用其给选取的特征项加权;其次,由于SVM算法的分类性能受到核函数及其参数的影响,本文选用文本分类领域使用最多的径向基核函数,并且选用效果优良的果蝇(FOA)算法优化其参数。实验证明,使用FOA-SVM进行文本分类有很好的效果。

关键词:支持向量机 果蝇算法 特征选择 特征加权 文本分类

Analysis of Text Classification System Based on FOA-SVM

Abstract

With the advent of the information age, people are facing more and more text information, how to get the desired message from the information in a short time has become an urgent problem to be solved. By comparing the relevant research at home and abroad, it is found that text classification technology is more practical in solving this problem. Therefore, the study of text classification has a certain practical significance.

We first use the understandable word segmentation method called Jieba to stop the word, and learn its related principles. We use the space vector model to express the text as a form that the computer can read. Then, we introduce the current mainstream algorithm of feature selection, through the experimental analysis, we select the information gain method to screen the feature with high distinguish power. In addition, the importance of each feature is different, we use the algorithm called TFIDFIG to weight the selected feature items. Because the SVM is affected by the kernel function and its parameters, we choose the widely used RBF kernel function and the SVM parameters optimized by FOA. Experiments in the paper show that the use of FOA-SVM for text classification has a good effect.

Key Words:Support vector machine; FOA; Feature selection; Feature weighting; Text classification

目 录

摘 要 I

Abstract II

第一章 绪论 1

1.1研究背景和意义 1

1.2研究现状 1

1.3研究内容 4

1.4论文的重点 5

第二章 文本分类相关技术 6

2.1 预处理技术 6

2.2 文本表示模型 7

2.2.1 布尔模型 7

2.2.2 概率模型 7

2.2.3 向量空间模型 7

2.3 特征选择算法 8

2.3.1 信息增益(IG) 9

2.3.2 文本频率(DF) 10

2.3.3 互信息(MI) 10

2.3.4卡方统计 10

2.4 特征加权 11

2.4.1 布尔权重 11

2.4.2 词频(TF)权重 11

2.4.3 反文档频率(IDF)权重 11

2.4.4 TFIDF权重 11

2.4.5 TFIDFIG权重 12

2.5 分类算法 12

2.5.1 KNN算法 12

2.5.2 SVM算法 13

2.6 分类器性能评估 13

第三章 支持向量机 15

3.1 原理 15

3.1.1 最优超平面 15

3.1.2线性可分SVM 16

3.1.3线性不可分SVM 17

3.1.4非线性SVM 18

3.2 SVM核函数选择 18

3.2.1 核函数介绍 19

3.2.2 常用核函数 19

3.2.3 核函数的选择 19

3.3 SVM多分类问题 19

第四章 基于FOA的SVM参数优化 21

4.1果蝇算法 21

4.2 FOA优化的SVM参数 22

4.3参数寻优步骤 23

第五章 基于FOA-SVM模型的文本分类预测 25

5.1 加权方案对比 25

5.2 特征项数目的选择 25

5.3 基于FOA-SVM模型的文本分类预测 27

5.4 其他分类器预测对比 29

第六章 总结 30

参考文献 31

致 谢 34

附 录 35

第一章 绪论

1.1研究背景和意义

随着互联网的普及,信息对社会发展的影响日渐突出,人们面对的信息量也正在以几何级数的速度疯狂增长。信息充斥在我们生活中的每一个角落,从书本、报纸再到手机、电脑,而这些信息大多都是以文本的形式存在着。总体上说,信息给我们的生活带来了极大的便利,缩短了我们与世界的距离,而人们对于信息的依赖心理也越来越严重。面对激增的文本信息,我们真正用到的其实只有很少的一部分,如何在最短时间内从中获得对于我们有用的消息成为亟待解决的问题。

如果单纯地依靠人工来整理解决如此庞大的信息资料,显然是不切实际的。如果用计算机直接进行处理,系统化、结构化地管理这些资料,那么筛选出人们想要的信息将会十分方便高效,而且节省了劳动力。所以,发展文本处理技术,对文本信息进行分类,提高人们对信息的搜索速度至关重要。

请支付后下载全文,论文总字数:20549字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图