登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 理工学类 > 统计学 > 正文

基于随机森林的恶意代码分类研究开题报告

 2022-01-14 20:28:15  

全文总字数:4208字

1. 研究目的与意义及国内外研究现状

  1. 目的:恶意代码问题,不仅使企业和用户蒙受了巨大的经济损失,而且使国家的安全面临着严重威胁。而目前传统的两种恶意代码分析技术——静态分析及动态分析,或不能检测出新变种,或所耗时间较长,或准确率不高,都不足以满足如今的需求。本论文在恶意代码灰度图像以及opcode n-gram模型的基础上提取特征,用该特征训练随机森林,对样本进行分类。本文旨在能够在短时间内分析处理超大数据量的恶意代码,并且提高分类准确率。
  2. 意义:恶意代码是一个庞大的家族,囊括了病毒、蠕虫、特洛伊木马等十几种大类别。自1988年第一例蠕虫给美国政府造成近亿美元的损失之后,恶意代码被越来越多地利用在经济、政治、军事上,成为一种信息战、经济战中的重要手段。而且随着黑客技术的发展,恶意代码在传播的过程中会不断发生变形来躲避相关软件的查杀,所以,同一种恶意代码的数量急剧攀升。恶意代码的多样性、隐蔽性以及快速传播性常常打得检测系统措手不及,因而造成无法预估的损失。而随机森林正能帮助技术人员逃离这种窘境,相比于传统分析方法,它不仅提高了检测效率,而且能够及时、高效且准确地对大量恶意代码样本进行检测,使计算机或技术人员能够及时发现恶意代码,避免造成损失。

国内外研究现状

随着大数据分析的发展,人们发现机器学习对于恶意代码的检测有着很好的效果。而其中之一的随机森林不仅训练速度快、容易实现,而且泛化能力强。基于随机森林的恶意代码分析技术正一步步走入大家的视线。

2004年,tony等人在他们的论文中提出将n-gram应用于恶意代码的识别分类。他们介绍了一个框架,该框架使用基于bytecode的n-gram方法来检测恶意代码。实验结果显示,在n取3,选取全体出现频次最高的1500个3-gram作为特征时,在测试集上的准确率是最高的,高达98%。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

本论文采用基于随机森林的恶意代码分析技术,采用该方法最大的优势就是可以准确、快速地对恶意代码进行识别分类,并且可以发现部分新变种。本文对kaggle上提供的恶意代码样本的利用ida反汇编工具生成的.asm文件进行两种特征提取:

(1).asm文件灰度图像特征。恶意代码的灰度图像概念最早由nataraj等人于2011年在他们的论文[3]中提出来的。他们提出将恶意代码的二进制文件每读取8位为一个无符号整型向量,然后组织成一个二维数组,最后把它转化为一个灰度图像。本文将恶意代码.asm文件样本转化为一个十六进制文件,然后组织成一个二维数组(数组元素对应文件中的每一个字节),最后把它转化为一个灰度图像。使用某种标准提取灰度图像中的特征。

(2)opcode n-gram特征。n-gram是自然语言处理领域的概念,早期的语音识别技术和统计语言模型与它密不可分。将n-gram应用于恶意代码识别的想法最早由tony等人在2004年的论文n-gram-baseddetection of new malicious code 中提出,不过他们的方法是基于bytecode的。2008年moskovitch等人的论文[2]中提出利用opcode代替bytecode更加科学。本文基于opcode n-gram模型,提取总体频次最高的k个n-gram作为特征。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 实施方案、进度安排及预期效果

实施方案:本论文使用python对恶意代码样本的.asm文件进行特征提取实现。对于在.asm文件上生成的图像,选取前3000个像素值作为特征。对于opcode n-gram特征,本论文将总体出现频数最大的k个n-gram(n分别选取2,3,4,k分别取500,700,900,1100,1300,1500)作为特征,选择分类效果最好的一组n,k值进行下一步实验。分别对于单种特征训练随机森林模型,再对两种特征相结合的情况训练随机森林。

进度安排:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1] kang b j , yerima s y , sezer s , et al. n-gramopcode analysis for android malware detection[j]. ijcsa, 2016.

[2] moskovitch r , feher c , tzachar n , et al. unknownmalcode detection using opcode representation[j]. 2008.

[3] l. nataraj, s. karthikeyan, g. jacob, and b. s.manjunath. malware images: visualization and automatic classication. inproceedings of the 8th international symposium on visualization for cybersecurity, vizsec ’11, pages 4:1–4:7, new york, ny, usa, 2011. acm.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图