基于随机森林的文本分类研究应用开题报告
2020-07-19 18:44:16
1. 研究目的与意义(文献综述包含参考文献)
文 献 综 述
一、 选题依据和背景情况
文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别.文本分类是文本挖掘的一个重要内容。随着internet的迅猛发展,各类文本信息快速增长,如何在错综复杂的海量文本信息中获取最有用的信息始终都是信息处理的热点。文本分类作为处理大量文本数据的关键技术,可以在较大程度上解决”信息爆炸”所带来的问题。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容、问题解决措施及方案
1. 对研究对象的了解
随机森林【3】采用cart【8】作为元分类器,用bagging方法【9】生成每棵决策树的随机训练样本集,并且在构建单棵树时,随机地选择训练样本中的特征来决定决策树的节点分裂。bagging方法和cart的结合,再加上随机选择特征进行属性分裂,使得rf能较好容忍噪声,并具有较好的分类性能。
随机森林是由多个决策树{h(x,θk),k=1,2,#8230;,n}组成的组合分类器,其中{θk}是独立同分布随机向量,通过对所有决策树结果进行综合投票,而产生输出结果。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付