基于深度学习的分类算法研究开题报告
2021-12-28 20:46:31
全文总字数:11031字
1. 研究目的与意义及国内外研究现状
1.选题目的如今,发达的科技、高速发展的社会、越来越便利的交流工具,让我们处于一个信息爆炸的时代,每天都有海量的数据产生,如何从大量的数据中挖掘有价值的知识已成为当今信息科学领域研究的热点。分类器是数据分析最常见的一类算法模型,首先通过对已知类别样本学习来建立分类器模型,然后利用该模型预测未知类别样本的标签。例如可以根据大量正常电子邮件的特征检测出垃圾邮件,通过网络流量的正常数据监测网络攻击行为等等。但是像垃圾邮件和网络攻击行为在生活中都是偶然发生的事件,这些数据难以收集。因此,我们仅能对易于收集的一类数据进行学习和特征描述,为其建立模型来区分它们和偶然事件,以达到预测数据类别的目的,我们将这类问题称为数据分布不均的单分类问题。
大多数分类算法的基础是一种“学习算法”的思想,通过训练大量已知类别数据,找出其共有的规律和特点,来构建分类器模型,该分类模型可以很好的拟合输入样本的类别与样本属性之间的关系,同时能够最大可能正确的预测未知样本的类别。常见的分类学习算法有决策树、朴素贝叶斯、人工神经网络、k-近邻和支持向量机分类算法等,这些算法在多个领域都有很好的应用。每个分类算法都有其自身的特点和适用范围。实际应用中,我们要处理的多数是高维、两类(多类)、海量和非均衡的数据样本,没有一种分类算法能够适用于所有实际情况并使其分类性能达到最优。因此,应该根据实际问题选择合适的分类算法并加以改进或组合。
但在解决样本数量大、样本数据不均衡、高纬度分类问题时,不能单纯地使用传统的分类算法去解决。为解决样本不均衡的问题,需要采用单类分类器的思想。单类分类器中可以只包含一类目标数据并对其描述分类边界,从而构造用以区分目标数据与非目标数据的分类器。同时,为了提高分类器性能,需采用深度学习的思想来对数据进行特征选择。自动编码器一种利用神经网络来实现降维的无监督学习方法,即输入一个没有类别标签的训练样本集合,依据神经网络的特点,假设编码器的输出与输入相同,调整参数得到神经网络的隐藏层,这些隐藏层被视为输入数据的压缩表示,从而达到对样本数据降维的目的。这样,该改进的分类算法能在现实生活中针对数据分布不均问题达到高准度的分类效果。
2. 研究的基本内容
本论文以基于深度学习的分类算法为研究对象,首先分析出在现实生活中类似于垃圾邮件和网络攻击行为等事件的偶然性,明确此类数据难以收集,对于这种数据分布不均匀的单分类问题,目前的分类器还不能很高效地进行数据挖掘。
对此,本论文提出了将现有聚类算法和one-class svm算法结合的新算法并为了降低算法的计算量、提高准确率,本文引入深度学习的知识对原始数据进行降维,提出一种深度学习与改进的算法相融合的新算法。
并且,为了直观的反应出改进算法的高效性,本文利用uci数据集分别对改进的算法以及和基于深度学习的改进算法进行测试,利用实验结果得出该论文的最终结论。
3. 实施方案、进度安排及预期效果
1.1拟采用得实施方案本课题主要研究基于深度学习的分类算法。
具体来说主要运用了以下方法:
1.以文献资料法收集当前最新的研究成果,了解国内外最新的分类算法研究现状。
4. 参考文献
[1]吴定海,张培林,任国全,陈非.基于支持向量的单类分类方法综述[j].计算机工程,2011,37(5):187-189.[2]陈斌,冯爱民,陈松灿,李斌.基于单簇聚类的数据描述 [j].计算机学,2007,30(8):1325-1332.
[3]juszczak p. learning to recognize: a study on one-class classification and active learning[ph.d. dissertation]. delft university of technology, holland, 2006.
[4]. tax d. one-class classification: concept-learning in the absence of counter-examples [ph.d. dissertation].delft university of techonology,holland,2001.