半监督学习算法研究开题报告
2020-04-16 13:38:21
1. 研究目的与意义(文献综述)
1.1选题目的
近年来,随着机器学习的不断发展,其在数据分析与数据挖掘中起到不可或缺的作用。但是,传统的机器学习需要利用很多具有标记的样本开展,时至今日,人们已经可以很容易地获得未标记的样本,而获取有标记的样本则相对困难,主要还是考虑于成本问题。从机器学习的分类(有监督学习、无监督学习、半监督学习、增强学习)的比较中,我们发现,半监督学习的优点在于能同时充分利用大量未标记样本、标记样本,是无监督学习与有监督学习结合的一种方法。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,还能改善学习性能,因而,半监督学习法越来越收到人们的重视。
1.2选题意义
半监督学习的研究的历史可以追溯到20世纪70年代,当时主要出现了自训练、直推学习、生成式模型等学习方法。20世纪90年代,对半监督学习的研究变得更加狂热,新的理论的出现,以及各种计算机视觉新应用的发展,同样促进了半监督学习的发展,例如:协同训练和转导支持向量机。在半监督学习逐渐成为热门后,越来越多的人关注,也就越来越多的人改进了半监督学习方法。nigam等人将em和朴素贝叶斯结合,通过引入加权系数动态调整无类标签的样例的影响提高了分类准确度,建立每类中具有多个混合部分的模型,使贝叶斯偏差减小。zhou和goldman提出了协同训练改进算法,不需要充分冗余的视图,而利用两个不同类型的分类器来完成学习。shang等人提出一种新的半监督学习方法,能同时解决有类标签样本稀疏和具有附加无类标签样例成对约束的问题。
而今数据时代,人类每天面对的信息量是繁杂且巨额的,收集、存储、分析等等工作成了不小的工作量,如果进行筛选,获得自己需要的信息成了一个值得关注的问题。半监督学习的基本思想是利用数据分布上的模型假设建立学习器对未标签样例进行标签,提高系统的泛化能力,帮助人们更好地聚类或者汲取需要的信息。
2. 研究的基本内容与方案
2.1研究内容及目标
网页、电子邮件、数字图书和数据库等等形式是人类如今失常需要接触到的,如何有效和管理和获许这些海量信息,并从中准确地找到用户所需要的信息,就需要一些技术上的改善。文本分类的应用主要在于在现有的体系下,让计算机自动类别它的内容,包括过滤,组织,检索等等功能。
em算法与半监督学习法基本思想的结合恰恰能很好地帮助文本分类更高效、更准确地完成任务。如何运用em算法与半监督学习方法的基本思想,完成文本分类则是本次研究的主要探讨的问题。
3. 研究计划与安排
第1周:外文资料的翻译
第2周:查阅相关的文献
4. 参考文献(12篇以上)
[1] 张晨光,#8206; 张燕.半监督学习.[m].中国农业科学技术出版社.2013
[2] 唐焕玲.基于半监督与集成学习的文本分类方法.[m].电子工业出版社.2013:
[3] (希腊)西格尔斯#8226;西奥多里蒂斯.康斯坦提诺斯#8226;库特龙巴斯|译者:李晶皎//王爱侠//王骄.模式识别(第4版)/国外计算机科学教材系列.[m].2016