网络异常流量分析方法研究毕业论文

2020-02-19 18:15:07

摘要

如今，网络所覆盖的领域越来越大，网络应用的类别也多样化，利用新的分析技术，找到一种高效简易的流量异常分析方法可以改善网络安全的严峻形势。本文将使用机器学习方法来进行网络异常分析，应用机器学习自学习的特点，设计出网络异常流量识别检测方法。该方法提取出网络流量的特征值，并根据其携带的数据包内容，提取出载荷特征，通过已经学习的神经网络模型来判断网络中是否有异常的流量。总体分为两部分，特征提取部分和神经网络模型训练部分。系统通过不断拓展或者更新已有的模型库来达到对不同网络环境的异常流量检测。论文一共分为六章，首先介绍异流量研究的历史以及研究意义，对异常流量概念进行描述，并介绍几种常见的异常流量类型。介绍国内外网络流量的研究及发展趋势，明确本文的研究方向，概述论文的主要研究工作。然后具体描述几种关于统计学的网络异常流量检测方法，并且对这些现有的技术进行分析，重点介绍本文分析方法设计核心-神经网络算法。接着介绍了基于pcap抓包库的流量分析，并对pcap文件进行分析，根据特征规律得出候选特征集，并对具体获取特征值方法进行具体描述。给出异常流量检检测方案和总体设计。具体介绍设计环境以及方法实现，并对涉及的工具进行描述，对已完成的程序进行测试，得出试验结果并分析。最后对本文的研究工作进行总结，找出工作中的不足，以及对未来工作进行展望。

关键词：异常流量；网络抓包；特征提取；神经网络；数据集；模型训练；准确率

Abstract

Nowadays, the network covers more and more fields, and the categories of network applications are diversified. By using the new analysis technology, we can find an efficient and simple method to analyze the abnormal traffic to improve the severe situation of network security. In this paper, machine learning method is used to analyze network anomaly, and the characteristics of machine learning self-learning are applied to design a network anomaly traffic identification and detection system. The system extracts the characteristic values of network traffic, and extracts the load characteristics according to the contents of packets carried by the system, and determines whether there is abnormal traffic in the network through the learned neural network model. The system is divided into two parts: feature extraction part and neural network model training part. Continually extending or updating existing model libraries for achieving abnormal traffic detection of different network environments. The thesis is divided into six chapters. Firstly, the history and significance of heterogeneous flow research are introduced, and describe the concept of abnormal network traffic. identifying the research direction and introducing to the main research work. Then several statistical methods for detecting abnormal network traffic are described and the existing techniques are analyzed. Focusing on introducing the system design core-neural network algorithm. Then introducing the flow analysis based on pcap packet catching library, and analyze the pcap file. According to the feature rule, setting the candidate feature dataset, and describe the methods of obtaining eigenvalues in detail. The scheme and overall design of abnormal network flow detection system are given in this paper. System design environment and system implementation are introduced in detail, then describe the tools involved. Testing the completed system and obtaining test results to analyze. Finally, this paper summarizes the research work, find out the deficiencies in the work, and prospect the future work.

Key Words：abnormal network flow; Network capture packet; Feature extraction; Neural network; Data set; Model training; accuracy

第1章绪论 7

1.1 研究背景和研究意义 7

1.2 异常流量描述 7

1.3 国内外研究及发展趋势 8

1.4 论文研究内容及组织结构 9

第2章基于预测-分类级联的网络异常流量检测方法 10

2.1 现有的网络流量异常检测技术 10

2.1.1 基于统计分析的网络流量异常检测技术 10

2.1.2 基于信号处理的网络流量异常检测技术 11

2.1.3 基于数据挖掘的网络流量异常检测技术 11

2.1.4 基于深度学习的网络流量异常检测方法 12

2.2 神经网络算法概述 12

2.2.1 神经网络基本原理 13

2.2.2 神经网络拓展 15

2.3 本章小结 16

第3章基于pcap抓包库的流量特征分析 16

3.1 pcap文件分析 16

3.2 网络流量分层介绍 18

3.3 单条网络流量特征 19

3.4 多条网络流量特征 19

3.5 本章小结 20

第4章异常流量检测方法设计 20

4.1 总体设计 20

4.2 流量特征值提取部分 21

4.2.1 分离数据流 21

4.2.2 整合数据流 22

4.3 神经网络训练模型 24

4.3.1 数据预处理 24

4.3.2 神经网络模型结构 25

4.4 本章小结 26

第5章试验与分析 27

5.1 实验准备 27

5.2 特征提取 27

5.2.1 Wireshark抓包 27

5.2.2 Pcap包解析以及特征提取 29

5.3 神经网络模型 34

5.4 本章小结 38

第6章总结与展望 39

6.1 论文总结 39

6.2 不足与展望 39

绪论

研究背景和研究意义

2019年2月28日，根据第43次《中国互联网络发展状况统计报告》报告，截止2018年12月，中国网民数量达到8.29亿，普及率达59.6%。互联网具有共享性、开发性的特点，随着网络技术的发展，各式各样的新型网络应用进入人们生活的各个方面，人们的生活产生了巨大的改变。web应用，移动通讯，电子邮件以及网络购物等已经嵌入了人们的生活中，人们利用网络高效工作，共享资源；与此同时，网络虽然给人们带来了许多便利，但网络异常给人们带来的危害也是不可小觑的。在互联网的开发过程中，任何符合网络标准的应用或设备都可以以合法的权限接入到互联网，这样就给网络安全管理带来棘手的问题，各类网络安全事件参差不穷。例如2018年2月，在韩国平昌冬季奥运会开幕式上，出现了网络中断，官网及广播系统出现异常，后被检测出是黑客攻击；2018年五月底，俄罗斯的黑客传播了名为VPNFilter的恶意软件，可协调受感染的设备以创建大规模的僵尸网络，还可直接监视和操纵受感染的路由器上的web活动，这些功能可用于启动网络操作或垃圾邮件活动，窃取数据，制定有针对性的本地化攻击等，已影响超过50万台路由器；2018年8月，某论坛上出现一条某酒店用户开房数据的出售帖，其中涉及众私人隐私信息大约5亿条。网络攻击数量越来越多，攻击方式也越来越多样，为了提高网络的安全性和可靠性，需要人们的共同努力。

如今，网络所覆盖的领域越来越大，网络应用的类别也多样化。这复杂化了研究人员对网络的研究。因此，利用新的分析技术，找到一种高效简易的流量异常分析方法可以改善网络安全的严峻形势。本文将使用机器学习方法来进行网络异常分析，对网络异常做出判断，应用机器学习自学习的特点，设计出网络异常流量识别检测方法，这将对网络分析产生重要意义。

异常流量描述

异常流量是指，在有限的带宽资源中存在着不明安全性的流量，它会影响网络的正常使用。网络异常主要有如下三种：网络故障异常，多发生在网络节点，如路由器故障，服务器故障等，一般由网络管理人员对节点的软件或者硬件进行修复解决；突发访问异常，具体表现在网络中，某个服务器在短期内被大量用户访问，这将造成网络堵塞或者服务器超负荷运行以致奔溃。一般由人为刻意攻击或者网络对用户的宽带没有进行限制造成；网络入侵异常，由人为恶意攻击造成，这将对网络安全产生致命的打击。

较常见的网络攻击有DoS（拒绝服务）攻击、DDoS（分布式拒绝服务攻击）攻击、网络蠕虫、不可控的P2P应用以及网络端口扫描等。以下将简要分析几种网络异常：

网络端口扫描

端口扫描过向目的主机发送一组扫描信息，进而获取其向外界提供的网络服务类型，一些较为公共的网络服务，它所使用的端口也是固定的。由此，通过扫描端口，我们可以知道目的主机的端口开放情况，通过分析返回的数据，甚至可以获取到目的主机的操作系统漏洞。

DoS 、DDoS攻击

DoS亦称洪水攻击，这是一种常用的网络攻击手段，通过向目的主机发送大量的异常连接，目的主机将使用大量的系统资源去处理连接，这将导致主机的其他任务进程中断，也会导致其他主机无法连接到该主机，若攻击的目标为服务器，将使得服务中断，给系统带来巨大的损失。

分布式拒绝服务攻击(DDoS)[^[1]]，攻击者先使用网络攻击对网络中安全性较低的主机进行攻击，获得主机的使用权限，这种被攻陷的主机被称作“僵尸”，而后，攻击者在使用“僵尸”对指定的目标进行DoS攻击。

图表 1 DDoS攻击

如图表1所示，DDoS可分为带宽消耗型攻击和资源消耗型攻击，主要区别在于其拒绝的对象。

网络蠕虫

网络蠕虫属于计算机病毒，它可以在不被计算机用户发现的情况下，自动化地运行恶意代码或共享私有文件，而且一些智能化网络蠕虫，利用网络漏洞，可以通过已入侵的电脑在其连接的网络进行感染，若不加以控制，受感染的电脑数目将成指数级增长，甚至可以在短时间内，通过互联网，对全球网络都造成破坏。

以上所总结的几种典型异常流量中，可以通过iOS模型的不同层次来对其进行分析，每种异常流量在网络特征和网络服务类型方面有所不同，因此要对这些异常流量进行识别，需要采取不同的识别方法。本文将使用机器学习的神经网络算法来对异常流量进行检测。

国内外研究及发展趋势

在以前的ARPANET中，网络研究人员通过ICMP协议的程序ping来对网络异常进行检测，但随着网络规模和网络节点数据的增加，这种方法已经不能有效的解决网络异常流量的问题。

目前，网络研究主要是围绕两方面来进行：特征分析和建模预测。国内外在网络流量分析方面取得了许多成果。比如，P.Barford等人[^[2]]利用小波分析理论对网络异常进行分析，通过傅里叶变换，将信号关于时间的函数转化为信号关于频率的函数，因为以频率为参考，能更佳的表示信号的变化。LakHina 等人[^[3]]利用主成分分析方法（PCA，Principal Component Analysis），通过线性回归的方式，将多个高维度的数据进行投射，转化为几个低维度的数据变量。LERAD检测[^[4]]，它通过提取网络流量特征，将特征属性数据进行学习，在正常流量的基础上，归纳出正常流量所映射的流量规则集，在对检测数据进行分析时，将待检测数据与规则集进行规则匹配，将不满足规则集的数据流量视为异常流量。但是，建立关联规则需要大量的正常流量，这在实际的小型局域网中并不易实现。

国内的相关研究有，国防科技大学开发出来的大规模网络流量实时分析系统[^[5]][^[6]]，它不同于以往的技术，其采用多级过滤技术，而这很好的解决了流量数据太大，数据处理复杂，耗时的问题。通过多级过滤，将占流量大部分的正常流量和明显的异常流量过滤出去，将剩余流量进行精确复杂的分析，这将使得检测方法更加的高效。

随着网络测量技术和业务流量特征研究的发展，研究人员在对Internet流量的分析中也从不同方面来发现特性，统计学理论、深度学习、小波分析、自适应过滤算法等技术已经被应用于网络流量的分析中，单一的流量模型已经不能很好的全面描述网络流量的特征，为了更全面，精确地描述流量特征，可以将多个特征模型整合来建立混合模型进行网络流量预测，这些研究仍在继续。

论文研究内容及组织结构

本文提出了一种基于深度学习的神经网络的异常流量检测方案。这种方案提取出网络流量的特征值，并根据其携带的数据包内容，提取出载荷特征，通过已经学习的神经网络模型来判断网络中是否有异常的流量。方法设计总体分为两部分，第一部分为神经网络模型来准备数据，通过对原始的流量数据进行拆分，统计计算，得出特征值，并把数据传化为模型所需要的数据类型。第二部分为神经网络模型训练部分，通过第一部分所得到的训练集来学习神经网络模型参数，并且将最优的模型进行存储，在应用检测中，直接应用模型库中的模型来检测。并且可以不断拓展或者更新已有的模型库来达到对不同网络环境的异常流量检测。

本文一共分为六章，内容安排为：

为本文的绪论部分，介绍异流量研究的历史以及研究意义，对异常流量概念进行描述，并介绍几种常见的异常流量类型。还描述了国内外网络流量的研究及发展趋势，明确本文的研究方向，概述论文的主要研究工作。
具体描述几种关于统计学的网络异常流量检测方法，并且对这些现有的技术进行分析，重点介绍本文检测方法设计核心-神经网络算法。
本章介绍了基于pcap抓包库的流量分析，并对pcap文件进行分析，根据特征规律得出候选特征集，并对具体获取特征值方法进行具体描述。
给出异常流量检检测方案，给出总体设计。
试验与分析，具体介绍设计环境以及设计实现，并对涉及的工具进行描述，对已完成的程序进行测试，得出试验结果并分析。
对本文的研究工作进行总结，找出工作中的不足，以及对未来工作进行展望。

基于预测-分类级联的网络异常流量检测方法

本章简述现有的网络异常检测技术，根据各类技术的所利用的方法和数据特征来归纳其优缺点和适用环境。然后重点介绍神经网络的基本原理。

现有的网络流量异常检测技术

基于统计分析的网络流量异常检测技术

基于统计的异常检测技术是一种早起网络异常流量检测技术，现已比较成熟。同时，其也是最开始普及的一种较直观简易的技术。其基本原理为，正常流量的各自特征维度的值在某段检测时间内具有相对稳定的特性，但异常流量因其随机性和不稳定性会呈现出不相关的观测值。所以，可以先对正常数据流建立统计规则模型，然后根据给定的数据与已经建立的正常规则模型进行对比。基于这个原理，我们将检测数据在模型中出现的概率进行统计，如果该数据出现的概率低于或超过正常阈值范围，则可认为该数据流量为异常流量。

Denning[^[7]]提出的模型采用了多样的参考度量，定义了事件计数器、资源测量器、时间定时器三种度量。在五种统计模型的基础上，从历史正常流量数据中获取样本，提取特征值，然后利用相似的方法从需要检测的流量数据中提取出特征值，经过前后两者的比较后，即可得出是否出现网络异常。

基于统计的异常流量检测方法种类多样，实现简单，总结有如下优点：其具有统计学习性，通过统计数据，能够检测出通用的未知攻击；在特征比较之间的差值溢出规定阈值后，及时作出反应；在基于滑动窗口的统计模型中，数据的变化能被实时的反映出来，不同时间段置信区间的变化也有所不同，根据实时的变化性能直观的反应出异常。与此同时，它的缺点也是多重的：因为其具有训练性，攻击者则可以根据历史数据，来伪装攻击模型，以此欺骗网络异常统计模型；而且模型不能百分百鉴别出异常流量，或者说漏报和错报是不可避免的，所以要找到准确率的平衡需要有效的调参手段；在网络流量特征维度较高时，模型不能很好的选择出高效的统计量。

基于信号处理的网络流量异常检测技术

安照预期的目的、要求来对信号进行分析、合成也能得到流量的行为和属性信息[^[8]]。基于信号处理的方法对网络进行异常检测同样已经成为较为成熟的技术。主要可以分为两大类：第一种为单时间序列分析法，其针对的是单一的链路信号；而第二种为多时间序列分析法，它将多个单一链路信号进行整合，转化为数组的形式，一般为二维。两者区别在于信号维度。

以上是毕业论文大纲或资料介绍，该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取，微信号：bysjorg。

注册

找回密码