基于随机森林的文本分类研究应用文献综述
2020-06-30 21:21:13
文 献 综 述
一、 选题依据和背景情况
文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别.文本分类是文本挖掘的一个重要内容。随着Internet的迅猛发展,各类文本信息快速增长,如何在错综复杂的海量文本信息中获取最有用的信息始终都是信息处理的热点。文本分类作为处理大量文本数据的关键技术,可以在较大程度上解决”信息爆炸”所带来的问题。
随机森林(Random Forests,RF)【3】是Breiman于2001年提出的一个组合分类器(Classifier Combination)算法。RF的分类性能较好,运算速度较快,并且被证明对噪声和孤立点不敏感,能有效解决不平衡分类问题。Breiman通过大数定律证明了RF不容易过拟合。由于随机森林采用CART作为元学习算法,这使得该算法能同时处理连续属性和类别属性。
二、 研究目的与意义
文本分类是使用机器学习的方法实现文本类别的自动标注,是信息检索、信息过滤和数据挖掘中的重要主题之一,被广泛应用于搜索引擎、信息检索、数字化图书馆等多个领域。因此,对文本分类技术的研究具有非常重要的现实意义。随机森林算法自提出以来已经成为一种重要的数据分析工具,并已经在许多领域得到了应用,包括:电力系统短期负荷预测【4】、基因表达数据分类【5】、脑磁共振图像分类【6】、洪水风险评价等【7】。
随机森林算法也为文本分类提供了一种新的智能化手段,但目前在这方面的研究还较少。随机森林良好的泛化性和鲁棒性、对噪声不敏感、能处理连续属性的特点,很适合用来建立文本分类模型。此次研究将运用随机森林进行典型案例的分析,提高并优化算法的预测性能。具体为三个主要内容,一,数据预处理(数据泛化、缺失值处理、标准化处理、离群值处理等)。二,决策树与随机森林算法的介绍和优化。三,改算法在典型的文本分类的运用。
三、 国内外研究现状、发展动态
随机森林是结合Bagging算法和随机子空间方法,以决策树作为基分类器的集成分类算法。自面世以来,随机森林被用于解决各种分类问题,包括信息检索中的重要环节:文本分类。
目前,较为常用的文本分类算法包括K-最近邻法(K-Nearest Neighbor,KNN)【1】,支持向量机(SVM)【1】,决策树和贝叶斯方法(Bayes)【2】等方法。