基于命名实体识别的漏洞利用信息挖掘方法研究毕业论文
2021-11-07 21:00:27
摘 要
随着互联网技术的飞速发展和极大普及,大量的组织单位都逐步互联网化,很多的私人信息在互联网上传播,但非法的网络攻击却层出不穷。如何有效地从相关机构发布的非结构化漏洞报告中提取出安全漏洞信息,将利于维护互联网环境的安全。
本文利用命名实体识别技术实现对安全漏洞领域实体信息的抽取,与传统的命名实体识别不同的是,本文所识别的实体主要是软件名、软件版本和攻击方式等相关实体。在研究和总结前人工作的基础上,使用正则和基于GRU的模型该两种方法来分别抽取不同的漏洞实体信息。
主要的研究包括以下三个方面:
1.使用Facebook的fastText训练语料库获取词向量,并对其参数进行了相关的调整,同时,为了探讨词向量维数对模型的识别效果的影响,进行了相应实验。此外,对通过爬虫技术和json解析后的数据进行了标注工作,构建了数据集。实验结果表明,词向量维数越大时,模型的准确率也有一定的提高。
2.基于正则化识别漏洞实体方法研究。为了覆盖更多的实体信息,选择了包含更多实体信息的CWE list,并完成算法设计,识别相应的漏洞实体信息。实验结果表明,此方法对于实体识别取得了较好的效果。
3.基于GRU模型的漏洞实体识别方法研究。将character-level级和word-level级混合的单词向量表示输入到GRU神经网络中进行训练,最后输出相关的实体标签。实验结果表明,该模型对于实体识别取得了较好的准确率。
关键词:命名实体识别;漏洞实体;GRU;正则;
Abstract
With the rapid development and popularization of Internet technology, a large number of organizational units are gradually connected to the Internet, a lot of private information is spread on the Internet, but illegal network attacks emerge in endlessly. How to effectively extract the security vulnerability information from the unstructured vulnerability reports issued by relevant institutions will help to maintain the security of the Internet environment.
In this paper, named entity recognition technology is used to extract entity information in the field of security vulnerabilities. Different from traditional named entity recognition, the entities identified in this paper are mainly related entities such as software name, software version and attack mode. Based on the research and summary of previous work, regular and GRU-based models are used to extract different vulnerability entity information.
The main research includes the following three aspects:
1. The word vector is obtained by using Facebook's fastText training corpus, and its parameters are adjusted. At the same time, in order to explore the influence of word vector dimension on the recognition effect of the model, corresponding experiments are carried out. In addition, the data parsed by crawler technology and json are annotated, and the data set is constructed. The experimental results show that the larger the dimension of the word vector is, the higher the accuracy of the model is.
2. Research on the method of identifying vulnerability entities based on regularization. In order to cover more entity information, the CWE list, containing more entity information is selected and the algorithm is designed to identify the corresponding vulnerability entity information. The experimental results show that this method has achieved good results for entity recognition.
3. Research on vulnerability entity identification method based on GRU model. The mixed word vector representation of character-level level and word-level level is input into GRU neural network for training, and finally the relevant entity tags are output. The experimental results show that the model has a good accuracy for entity recognition.
Keywords: named entity recognition; vulnerable entity; GRU; regularization;
目 录
第1章 绪论 1
1.1研究背景与意义 1
1.2国内外研究现状 1
1.2.1命名实体识别研究现状 1
1.2.2漏洞实体识别研究现状 2
1.3本文研究内容 3
1.4本文组织结构 4
第2章 词的分布式表示 5
2.1引言 5
2.2 基于fastText的词分布式表示 6
2.2.1词级分布式表示模型 6
2.2.2基于fastText的词分布式表示 7
2.3数据集的构建和标注 8
2.3.1selenium 8
2.3.2爬取数据 9
2.3.4json数据解析 10
2.3.5数据标注 11
2.4词向量维数设置实验及其分析 11
2.4.1实验环境 11
2.4.2数据来源 12
2.4.3评价指标 12
2.4.4实验内容及结果分析 13
2.5本章小结 13
第3章 基于正则和GRU的漏洞实体识别方法 14
3.1引言 14
3.2漏洞领域的实体 15
3.3基于正则化识别漏洞实体方法 15
3.3.1正则表示漏洞实体 15
3.3.2正则抽取漏洞实体算法设计 16
3.4基于GRU模型的漏洞实体识别方法 17
3.4.1GRU模型简介 17
3.4.2基于GRU模型的漏洞实体识别 17
3.5本章小结 18
第4章 实验内容及结果分析 19
4.1相关参数介绍 19
4.2实验环境及数据来源 19
4.3评价指标 20
4.4bachsize参数对模型的影响 21
4.5基于正则化漏洞实体识别实验 21
4.6基于GRU模型漏洞实体识别实验 22
4.7本章小结 24
第5章 总结与展望 25
5.1全文总结 25
5.2未来展望 25
参考文献 26
致 谢 28
第1章 绪论
1.1研究背景与意义
随着互联网技术的飞速发展和极大普及,以及自然语言处理和文本挖掘研究的不断深入,可用信息资源得到了极大的丰富。人们迫切需要从海量的非结构化文本中获取有用的信息。而命名实体作为非结构化文本中重要的语义知识,其识别和分类已成为一项重要的基础性研究问题。
随着互联网产业的发展,大量的单位都逐步实现了互联网化,并且最近中国互联网网络信息中心介绍了截至2020年3月,我国网民规模达9.04亿,由此可知,海量的私人信息、企业信息等都在当今网络上进行传播,面临着网络攻击,黑客入侵,病毒传播等一系列各种各样的安全问题。各种网络攻击事件层出不穷,严重威胁着整个社会的网络空间安全。就在今年4月,哔哩哔哩一名Up主就遭到了黑客的攻击,黑掉了其视频素材并对其进行勒索。为了和层出不穷的网络攻击进行对抗,一些网络安全的研究人员就必须从一些重大的网络攻击事件汲取相关的经验,并且得到相关的安全漏洞的信息。而一些已知的安全漏洞的信息或是刚刚发现的安全漏洞信息经常首先会出现在非结构化的文本数据中,例如网络安全的博客,安全结构公布的报告等。因此如果能够合理地使用文本数据中的漏洞信息,就可以追踪甚至可以还原相关的信息安全事件,用来提供一些新的漏洞和网络攻击的早期预警。而命名实体识别是最重要的任务之一。