登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 通信工程 > 正文

基于特征提取和主题模型的中文文本分类系统的设计毕业论文

 2021-03-13 22:48:09  

摘 要

当下,伴随时代的进步和科技的发展,人们早已进入了信息极度丰富的数字时代。面对如此巨大的信息,如何在短时间内获取有用的信息,就成为了当下的研究热点。文本信息处理的关键技术之一,就是文本分类。文本分类涉及多个领域的知识,包括机器学习、数据挖掘等等。文本分类所要完成的任务就是将一篇或者多篇的文本根据其内容,按照一定的要求来划分它所处的类别。文本分类技术是数据挖掘领域的关键技术,可以帮助用户准确、快速地寻找到有用或想要的信息。同时,文本自动类技术作为搜索引擎和的信息过滤基础,具有广泛的发展前景,可以降低在信息检索等方面上的花销,能给社会带来巨大的经济效益。

本文首先介绍了文本分类的研究背景及其意义,还有相关的国内外研究的现状。接着,对文本分类系统的进行了概述,指出文本分类系统可由文本分类过程可以分为预处理、构建文本模型、特征表示与选择、训练分类器和性能评估组成。同时,介绍了几种文本表示模型,常用的特征提取方法和分类算法。然后,搭建了一个使用潜在语义索引主题模型对文本进行向量化,使用线性核的支持向量机进行分类的文本分类系统。最后,基于实验数据,证明的该系统的可行性,简要说明了数据集对分类器性能的影响,再与基于KNN算法和向量空间算法搭建的中文文本分类器的分类性能分别进行比较,显示出基于潜在语义索引主题模型和支持向量机的中文文本分类器的优势,并在结尾处提出展望。

关键词:文本分类;支持向量机;LSI主题模型;特征提取

Abstract

Nowaday, with the progress of the times and the development of science and technology, people have already entered the digital age that information is extremely rich. Faced with such a huge amount of information, how to get useful information in a short time has become the current research hot spots. Text classification is one of the key of text information processing . Text classification involves many areas of knowledge, including machine learning, data mining and so on. The task of the text classification is to divide the text into one or more of the categories according to their contents and certain requirements. Text classification technology is the key in the field of data mining, which can help users to find useful or wanted information accurately and quickly. At the same time, the text automatic technology as a basis of search engine and information filtering, with a wide range of development prospects, can reduce the information retrieval and other aspects of spending, can bring huge economic benefits to the community.

First, this paper introduces the background of research, significance of the text classification and the related research status at domestic and abroad. Then, the paper summarizes the text classification system, and points out that the text classification system can be divided into such preprocessing, text model, feature representation and selection, training classifier and performance evaluation. At the same time, several text representation models, feature extraction methods which is commonly used and classification algorithms are introduced. Then, a text classification system is built by using the latent semantic index model and the support vector machine which is using linear kernel to classify. Finally, based on the experimental data, the feasibility of the system is proved, and the influence of the data set on the performance of the classifier is briefly described. Compared with the classification performance of Chinese text classifiers based on KNN algorithm and vector space mode respectively, the Chinese text classifier based on latent semantic index theme model and the support vector machine is more powerful, and put forward the prospect at the end.

Key words: text classification; support vector machine; LSI thematic model; feature extraction;

目 录

摘 要 I

Abstract I

目 录 I

第一章 绪论 1

1.1研究背景 1

1.2研究意义 1

1.3国内外研究现状 2

1.4 论文组织结构 3

第二章 文本分类系统概述 4

2.1 文本的预处理 4

2.2 文本的表示模型 5

2.2.1布尔模型 5

2.2.2向量空间模型 5

2.2.3 概率主题模型 6

2.3 特征提取 6

2.3.1 信息增益 7

2.3.2互信息 8

2.3.3 卡方统计 8

2.3.4词频和文档频次 9

2.4 常用分类算法 9

2.4.1 朴素贝叶斯算法 9

2.4.2 KNN(K最近邻) 10

2.4.3决策树 10

2.4.5 支持向量机 11

2.4.4神经网络算法 11

2.4 文本相似度计算方法 12

2.4.1基于VSM的TF-IDF相似度计算方法 13

2.4.2隐性语义索引方法 13

2.4.3基于汉明距离的相似度计算方法 14

2.5 文本分类系统性能的评估 14

2.6本章小结 15

第三章 中文文本分类系统 16

3.1 主题模型 16

3.1.1 TF-IDF 模型 17

3.1.2 一元混合模型 17

3.1.3 LSI 模型 18

3.2 SVM分类器 19

3.2.1 2类SVM分类 19

3.2.2 多类SVM分类 20

3.3 文本分类实验与结果分析 22

3.3.1 文本集的选择 22

3.3.2 分类器的搭建 22

3.3.3实验结果及分析 24

3.4本章小结 28

第四章 总结和展望 29

4.1 论文工作总结 29

4.2研究工作展望 29

参考文献 30

附录 32

致 谢 38

第一章 绪论

1.1研究背景

文本,从人类文明的发源时期就已经出现,甲骨文,篆刻,再到在竹简或白纸上书写的文字,其是指书面语言的表达形式,由具有完整意义的一个或多个句子组成,用来记录或传递某些信息。

文本分类可追溯至1959年,H.P.Luhn首次提出了词频统计的思想,即将文本看作是词语的集合,通过计算各个词语出现的频率以及分布特征来判定词语的重要程度。他提出了开创性的概率模型和因子分析算法[1],刺激了文本分类技术的发展。在文本分类提出的初期阶段,主要思路停留在通过人工建立详细的分类规则集,并依此规则来进行分类。该过程必须综合考虑语言学知识与权威的专家知识两个方面,手动总结出可以判断文本所属类别的规则集合,然后通过得到的规则集来完成文本分类。由于之前方法的种种不足,1990年,机器学习被应用到文本分的领域中,并且逐渐成为了文本自动分类的核心算法。机器学习的优势在于其训练度远高于人工,也完全不需要结合专家知识构造人工分类器。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图