使用相关信息的网络数据流分类外文翻译资料
2022-11-27 14:32:28
英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
使用相关信息的网络数据流分类
摘要:流量分类在网络管理中具有广泛的应用,从安全监控到服务质量测量。最近的研究倾向于将机器学习技术应用于基于统计特征的分类方法。基于最近邻(NN)的方法表现出优异的分类性能。它还具有几个重要的优点,如没有训练过程的要求,没有参数过拟合的风险,并且自然能够处理大量的课程。然而,如果训练数据的大小较小,则NN分类器的性能可能会受到严重影响。在本文中,我们提出了一种用于流量分类的新型非参数方法,通过将相关信息并入分类过程中,可以有效提高分类性能。我们从理论和经验角度分析新的分类方法及其性能优势。对两个实际的交通数据集进行了大量实验,以验证所提出的方法。结果表明,即使在非常少的训练样本的极端困难情况下,流量分类性能也可以显着提高。
关键词:流量分类,网络操作,安全
引言
网络数据流的分类在过去的几年受到了极大的关注[1][2][3]。按照生成数据流的应用程序来分类的分类方法在网络安全和管理中扮演了重要的角色,如QoS控制,合法监听和入侵检测[6]。传统的分类方法[1][7][2]包括基于端口的预测方法和深度包检测方法。在当前的网络环境中,传统的方法面临这很多的问题,如动态端口和数据加密。最近的研究主要集中在基于网络流的统计信息,使用机器学习的技术对网络数据流进行分类。机器学习可以自动寻找和描述有效的给定的网络数据集中结构模式,这一点对智能化实施数据流分类是非常有用的[8][7]。然而通过统计特征来识别网络数据流还存在准确率不够高的问题。
基于网络数据流的统计特征分类方法可以通过监督学习或者非监督学习来实现[2]。在为监督数据流分类中,由于不知道网络真实的分类情况,想要实现面向应用程序的分类是十分困难的[9][10]。给定一个预先标记好的训练数据集[9][10],监督学习可以分为两种:参量分类器和非参量分类器,参量分类器,如C4.5决策树[11],贝叶斯网络[11],SVM[3],和神经网络[12],这一类分类器需要大量的训练过程来确定分类器的参数;非参量分类器,如k-最近邻算法[13],通常不需要训练步骤,在分类的过程中依据特征空间中最近的一些训练样本[14]。当k=1时,分类器将测试数据流归类到距离它最近的样本数据的分类中。根据文献[3],最近邻算法能够达到参量分类器如SVM和神经网络相近的性能。他们是7个测试的机器学习算法中性能最好的3个分类器。和参量分类器比较,最近邻算法有几个非常重要的优势[14]。例如,不需要训练过程,不会出现参数过拟合的现象,能够应付数量巨大的分类。从这一点来看,最近邻算法更适合当前复杂的网络状况。
然而,最近邻算法性能受到少量不能准确代表网络数据流分类的影响十分严重。我们观察发现,当每一个分类内的训练样本从100减少到10个时,最近邻分类器的准确率下降了将近20%。其他监督学习方法,如SVM何神经网络,受到训练样本数量的影响也非常大。 在实际实施中,我们可能只人工标记非常少的样本作为监督学习的训练数据,因为对网络数据流做分类标记是非常费时的一件事情,特别当数据流被加密时。出于一些目的,分类算法仅需要很少的人工标记分类就能良好工作是非常重要的。这个观察结果和需求构成了我们工作的主要动机。
在这片论文中,我们提出了一个新的框架TCC(traffic classification using correlation)用来解决训练样本非常少的问题。网络数据流中的相关信息可以用来有效提高分类的精度。这项工作的主要贡献总结如下:
- 我们提出一种新的非参数方法,其中包含交通流量的相关性,以提高分类性能。
- 我们从理论和经验两方面对新颖的分类方法及其性能优势提供了详细的分析。
- 绩效评估表明,通过我们的方法可以显着改善使用极少训练样本的流量分类。
与此工作相关的所有数据均可在http://anss. org.au/tc。获得
本文的其余部分组织如下:第2节回顾了流量分类中的相关工作。 第3节提出了一种新颖的分类方法和理论分析。第4节介绍了大量的性能评估实验和结果。 第5节提供了与这项工作有关的一些讨论。最后,本文在第6节中得出结论。
相关工作
在过去十年中, 机器学习技术在流量分类中的应用的大量研究工作被呈现。 这些工作可以分为监督方法或无监督的方法。
监督学习方法
监督的流量分类方法分析监督的训练数据,并产生可以预测任何测试流程的输出类别的推断函数。在监督的流量分类中,足够的监督训练数据是一个普遍的假设。为了解决基于有效载荷的流量分类(例如加密应用程序和用户数据隐私)所遇到的问题,Moore和Zuev [7]应用朴素贝叶斯技术,根据流量统计特征对网络流量进行分类。威廉斯等人[11]评估了监督算法,包括具有离散度的朴素贝叶斯,核密度估计的朴素贝叶斯,C4.5决策树,贝叶斯网络和朴素贝叶斯树。 Nguyen和Armitage [15]提出根据最近一个时间段的实时流量的流量进行流量分类。 Auld等人[12]通过应用贝叶斯神经网络对[7]的工作进行了扩展,用于准确的流量分类。 Erman等人[16]使用网络核心流量分类的单向统计特征,并提出了具有估计缺失特征的能力的算法。 Bernaille和Teixeira [17]提出仅使用SSL连接的第一个数据包的大小来识别加密的应用程序。 Bonfiglio等人[18]提出了使用Pearson的卡方检验技术对加密处理引入的消息内容随机性进行分析。 Crotti等人[19]提出了基于概率密度函数(PDF)的协议指纹,以紧凑的方式表达三种流量统计属性。他们的工作扩展了参数优化程序[20]。埃斯特等人[21]将一种SVM应用于流量分类,并为每组SVM工作参数提出了一种简单的优化算法。瓦伦蒂(Valenti)等[22]提出了在小时间窗口中使用与其他对等体交换的数据包的数量对P2P-TV流量进行分类。 Pietrzyk等[23]评估了管理许多存在点的ADSL提供商的三种监督方法,其结果的准确程度与深度检查解决方案相当。这些工作使用参量机器学习算法,这需要对分类器参数进行强化训练,并需要对新发现的应用程序重新培训以确定新的参数。
有一些工作使用非参数机器学习算法。 Roughan等人[13]已经使用五类统计特征测试了NN和LDA流量分类方法。 Kim等人[3]广泛评估基于端口的CorelReef方法,基于主机行为的BLINC方法和七种常见的基于统计特征的方法,使用七种不同流量跟踪上的监督算法。基于NN的流量分类器的性能与两个优秀的参数分类器SVM和神经网络[3]相当。虽然非参量方法具有几个不被参量方法所拥有的重要优点,但其分类能力被认为在流量分类领域被低估了。
此外,监督学习也被应用于基于有效载荷的流量分类。虽然通过在有效载荷内容中搜索应用签名的流量分类更准确,但是手动导出签名是非常耗时的。为了解决这个问题,Haffner等[8]提出应用监督学习算法来自动识别一系列应用的签名。 Finamore等[24]使用有效载荷和应用监督算法(如SVM)的统计特征提出了应用签名来进行流量分类。与基于流统计特征的监督方法类似,这些基于有效负载的方法需要足够的监督训练数据。
非监督学习方法
无监督方法(或集群)尝试在未标记的流量数据中查找集群结构,并将任何测试流分配给其最近集群的基于应用程序的类。麦格雷戈(McGregor)等[25]提出使用期望最大化(EM)算法将流量分组到少量集群,并将每个集群手动标记给应用程序。 Zander等人[26]使用AutoClass对流量进行分组,并提出了一种称为集群评估的类内同质性的度量。 Bernaille等人[9]将k-means算法应用于流量聚类,并使用有效载荷分析工具将集群标记为应用程序。 Erman等人[27]评估了k-means,DBSCAN和AutoClass算法用于两个经验数据跟踪上的流量聚类。实证研究表明,当集群数量比实际应用数量大得多时,流量聚类可以产生高纯度集群。通常,聚类技术可用于发现以前未知应用的流量[28]。 Wang等[29]提出将统计特征流聚类与有效载荷签名匹配方法相结合,以消除对监督训练数据的要求。 Finamore等[30]基于流量统计特征的聚类和有效负载统计特征聚类,用于挖掘未识别的流量。然而,聚类方法存在从大量集群映射到实际应用的问题。这个问题很难解决,而不知道有关真实应用程序的任何信息。
Erman等人[10]提出以无监督的方式使用一组监督的训练数据来解决从流簇到实际应用的映射问题。然而,映射方法会产生很大比例的“未知”簇,特别是当监督的训练数据非常小时。在本文中,我们使用很少的训练样本来研究监督流量分类的问题。从监督学习的角度来看,每个类都有几个监督样本。没有无限的聚类过程,可以避免集群和应用程序之间的映射。我们的工作侧重于非参数分类方法,并且使用很少的培训样本来解决流量分类的困难问题。动机有两个方面。首先,如第1节所述,非参数NN方法有三个重要优点,适用于当前复杂网络情况下的流分类。第二,标示培训数据是耗时的,使用很少培训样本的分类能力非常有用。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[26053],资料为PDF文档或Word文档,PDF文档可免费转换为Word