基于集成学习的模式识别方法的研究毕业论文
2021-06-30 20:57:41
摘 要
集成学习是机器学习近来发展的一大热点,它将多个学习器结合起来,以取得比原来学习器更好的特性,更显著的泛化能力。从上世纪90年代开始,集成学习开始在机器学习领域流行,先后发展出Boosting,Bagging等算法。
本文首先介绍了机器学习的发展,集成学习的发展历程,研究背景及国内外研究现状。阐述了集成学习的主要思想,简要地介绍了集成学习的算法Boosting和Bagging,以及随机森林算法。对这些算法的原理做了简要的探讨,对其算法步骤做了简要说明。其次,本文还运用了软件编程的方法,对这些算法做了实际验证。
论文着重研究了如何使用集成学习算法处理iris数据,并对其进行预测。研究结果表明:集成学习在模式识别问题中有着非常大的作用,能够解决一般的分类问题,并且有非常高的准确率。
本文的特色:运用scikit-learn工具中的集成学习算法,对iris样本集进行学习和预测。
关键词:集成学习;模式识别;Python;scikit-learn;iris数据
Abstract
Ensemble learning is a hot topic in the field of machine learning recently, it combines several learners to achieve better characteristics and more significantly generalization ability than the original learner. From the beginning of the 1990s, ensemble learning became popular in the field of machine learning, Boosting, Bagging algorithm were developed at that time.
This paper introduces the development of machine learning, research background and status of machine learning research at home and abroad. It describes the main idea of ensemble learning, introduces ensemble learning algorithm Boosting and Bagging, and random forest algorithms briefly. The principle of these algorithms and a brief discussion of its algorithm steps are briefly described. What’s more, we also used the software programming methods, to verify these algorithms.
Thesis focuses on how to use ensemble learning algorithm processing iris data, and its prediction. The results show that: Ensemble Learning has a very large role in pattern recognition problems, and is able to solve the general classification, and has a very high accuracy.
Features of this paper: use the ensemble learning algorithm in scikit-learn tool for learning and prediction of iris data.
Key Words:Ensemble Learning;Pattern Recognition;Python;scikit-learn;iris
目录
目录 2
第1章 绪论 1
1.1 研究背景及意义 1
1.1.1 机器学习简介 1
1.1.2 机器学习研究意义 2
1.2 集成学习简介及研究现状 2
第2章 集成学习理论分析 4
2.1 集成学习理论基础 4
2.2 数学分析 4
2.3 集成学习的构成 5
2.4 集成学习的作用 6
2.5 集成学习的不足及发展方向 7
第3章 集成学习算法分析 8
3.1 Boosting 8
3.1.1 Boosting 简介 8
3.1.2 AdaBoost算法过程 8
3.2 Bagging 9
3.2.1 Bagging 简介 9
3.2.2 Bagging算法过程 9
3.3 随机森林 9
3.3.1 随机森林简介 9
3.3.2 随机森林算法 10
3.4 结合策略 10
3.4.1 平均法 11
3.4.2 投票法 11
3.4.3 学习法 12
第4章 针对Iris数据的集成学习算法实现 13
4.1 Iris数据 13
4.2 数据分析 13
4.2.1 决策树简介 13
4.2.2 连续值处理 14
4.3 算法实现 14
4.3.1 Scikit-learn 工具包介绍 15
4.3.2 运用sklearn 进行算法验证 15
4.4 实验过程 15
4.5 结果分析 17
第5章 总结与展望 18
5.1 工作总结 18
5.2 不足与展望 18
致谢 20
参考文献 21
附录 22
绪论
研究背景及意义
机器学习是人工智能发展到现在最有发展前景的一个分支。在机器学习的早期,人们期望找到一种算法,能够以很高的精度来进行学习和预测。在许多研究人员的努力下,一些著名的算法被发明出来:神经网络、决策树、贝叶斯分类器等等。但是这些学习器或者精度不够高,或者使用范围有限,或者需要强大的计算机做辅助。随着Schapire等人的研究,一种集大成的学习算法被提出来,就是集成学习。
机器学习简介
机器学习(Machine Learning)是研究计算机程序如何做出类似人类的学习行为,通过自身的学习,不断地改善内在的知识结构,对外界输入做出判断。机器学习已经是目前人工智能领域研究的主流,在许多领域都起到巨大的作用。
机器学习被应用在许多领域中,例如:人脸识别、棋类程序、语音识别、手写识别、文本分类、交通事故检测等诸多领域。基于大数据的机器学习算法研究是当前机器学习界、计算机科学界的研究核心之一。实际上,机器学习方法可以在任何需要经验积累的地方发挥作用,并且可以不断地根据经验改善自己的性能。
学习行为,是智能生物最显著的特征之一,学习能力是判别生物是否具有智能的重要标准。人们曾对机器学习给出各种定义,H.A.Simon认为,“系统为适应其环境而使其记忆容量或多或少地发生永久性变化;导致这种情形的任何变化,都是学习”[1]。R.S.Michalski认为,“学习是构造或修改对于所经历事物的表示”。还有一些哲学研究者认为,学习是不断地获取新的知识。这些观点都有其侧重点。第一种观点认为外部行为导致系统改变,强调变化的效果;第二种观点认为事物内部对于外部变化所产生的改变,强调学习的内部过程;第三种观点是从知识的实用性角度出发的,强调学习的实用性和目的性,类似于柏拉图的“一切知识不过是记忆”的观点。