基于主题模型的文档标签语义分类系统毕业论文
2021-03-13 23:17:35
摘 要
文本分类是机器学习的一大应用领域,根据机器学习的相关知识对训练数据分析建模,再利用模型对未知测试数据进行预测,从而完成对文本数据的自动分类。本文通过对主题模型中的LDA(隐含狄利克雷分布)模型和文本分类中的常用算法SVM(支持向量机)算法的研究,实现了基于LDA和SVM的文本分类系统,完成了文本分类的整套处理过程。论文的主要内容包括:
(1)研究了文本分类问题的处理全过程,包括预处理、特征的选取(包括特征选择与特征抽取)、分类算法等内容。
(2)深入研究了特征抽取阶段的主题模型—LDA模型和分类算法中的SVM算法,探讨了两者的思想与原理。
(3)以LDA作为特征抽取的手段获取文本训练集合的低维特征,以SVM算法构造分类器,实现了基于LDA和SVM的文本分类系统。系统表明LDA是一种有效的特征抽取方法,而SVM的分类效果也十分明显。
关键词:文本分类;LDA模型;支持向量机;特征抽取
Abstract
Text classification is a major application field of machine learning. According to the knowledge of machine learning, the training data is analyzed and modeled. The model is used to predict the unknown test data, and the automatic classification of the text data is completed. Based on the topic model-LDA (Latent Dirichlet Allocation) model and classification algorithm SVM (Support Vector Machine) in the text classification, this paper realizes the text classification system based on LDA and SVM, and completes the whole process of text classification problem. The main contents of the thesis include:
(1)This paper studies the whole process of text classification, including preprocessing, feature selection (including feature selection and feature extraction), classification algorithm and so on.
(2)The topic model of the feature extraction phase - LDA model and the SVM algorithm in classification is studied in depth, and the ideas and principles of the two are discussed.
(3) The low - dimensional feature of the text training set is obtained by using LDA as the feature extraction method, and the classifier is constructed by SVM algorithm, and the text classification system based on LDA and SVM is realized. The system shows that LDA is an effective feature extraction method, and SVM classification effect is also very obvious.
Key Words:text classification;LDA model;support vector machine;feature extraction
目录
第1章 绪论 1
1.1研究背景及意义 1
1.2研究现状 2
1.3本文的研究内容 3
1.4论文的组织 3
第2章 文本分类概述 4
2.1文本分类的定义 4
2.2 二类分类问题 4
2.3 多类分类问题 4
2.4 文本分类的处理流程 5
2.4.1 预处理 5
2.4.2 结构化文本表示 6
2.4.3 数据降维 6
2.5文本分类算法——支持向量机 7
2.5.1 SVM的概述 7
2.5.2 SVM的数学过程 8
2.5.3 核函数 10
第3章 主题模型 11
3.1 主题模型简介 11
3.2 LDA 11
第4章 基于LDA的文本分类系统 14
4.1 简介 14
4.2 第三方库概述 14
4.2.1 jieba中文分词库 14
4.2.2 gensim库 14
4.2.3 scikit-learn 15
4.3系统详述 15
第5章 总结与展望 21
5.1 工作总结 21
5.2 工作展望 21
参考文献 22
致谢 23
第1章 绪论
1.1研究背景及意义
20世纪六七十年代,ARPANET的出现代表着互联网的萌芽,这一网络最初的目的就是为用户提供来自于大型主机的丰富信息资源。自那时开始,Internet就逐渐演化出了它的雏形。随着时间的不断推移,到上个世纪90年代,Internet被越来越多的人所使用,同时,各行各业的公司也开始利用Internet进行宣传、贩卖等商业活动。Internet凭借着其在信息内容提供领域的巨大潜力最终走向全球,成为人们生活中必不可少的一部分。迈入21世纪以来,Internet更是得到了飞速的发展,它已成为人们交流信息、共享资源的最大平台,人类也已经迈向数字化信息时代。在当今这样一个时代里,各种各样的信息都以人们难以想象的高速在增长着,作为人们接触最多的文本信息尤其是如此。而考虑整个Internet上,网页的数目与大小更是一个天文数字,据悉,早在20世纪初,仅仅通过Google公司索引的网页就高达30亿个。而在Internet上如此巨大的信息资源中,文本信息以其传播方便的特点,占据了极大的一部分。在当前Internet PB级甚至更高的文本集上,信息的分类就成为一个非常热门的话题。文本自动分类应运而生,即按文本内容自动地确定其分类情况[1]。上世纪末,互联网远不及今天这般发达,而当时都是通过人工标注文本的类别。这种分类方法既费时,效率也非常低。随着互联网的高速发展,传统的手工分类方法已经完全不可能满足人们的需要,亟待一种新的高效自动的分类方法,由此,文本自动分类应运而生。当时,由于统计学知识和机器学习的快速发展,人们自然而然地发现基于机器学习的自动文本分类的可能,自动文本分类的关键在于从样本集中,通过算法得到相应的分类规则,即用于分类的分类器,通过该分类器可以对新文档进行类别预测,预测新文档属于哪一或哪些类别。文本自动分类的出现,为解决互联网海量文本数据分类问题提供了契机和解决方案。时至今日,研究人员已经提出多种算法以用于解决相关问题。
文本自动分类的优点也自然不言而喻,将传统的人工分类方式转变成利用机器自动处理,在分类速度上有巨大的提升。例如,对于一篇专业文献,一名专业的技术人员可能需要几分钟甚至十几分钟乃至更长的时间来确定这篇文献的特点,从而确定文献的分类。然而通过机器自动分类却只需要以秒为数量级的时间。同时,文本分类技术也得到了颇为广泛的应用。例如在信息检索领域,文本自动分类能够以更高的准确率帮助用户搜索和获取信息,同时也提高了检索的效率。目前主流的搜索引擎都有检索时针对文本分类的优化处理。在我们日常学习中发挥重要作用的数字图书馆,也是文本分类技术的一个重要应用。对于数字图书馆所索引的海量文献而言,仅仅通过人工标注的方式进行分类显然是不太现实的,而借助于文本自动分类技术能够很好地解决这一问题。除此之外,文本自动分类在文本内容过滤、自然语言处理、推荐系统等等领域都有着非常广泛的应用[2]。可以肯定的是,基于机器学习的文本分类在实际中具有很高的价值,目前,由于文本数据自身固有的一些特性,尤其是中文文本的某些特征(例如中文文本通常是连续不断地字词组合),它给机器学习领域带来了新的挑战,对文本分类问题的研究也越发重要了。
1.2研究现状
文本分类的历史颇有渊源,不过当时的方法与我们今天所说的文本分类差异较大,早期的文本分类要求对某一领域非常熟悉,它通过专业人士对相关领域人工定义一定的规则,从而根据知识工程的相关方法利用这些规则对文本进行分类,费时费力[3]。