钓鱼网站判别分析开题报告
2021-12-12 14:14:23
1. 研究目的与意义及国内外研究现状
为了保护网络用户的信息安全,保障好公众利益。本文旨在对高维的钓鱼网站数据降维而不影响判别的准确率,缩短判别时间,降低数据的冗余度。并寻找和比较合适的判别分析方法来提高钓鱼网站判别率,从而建立一个钓鱼网站评判标准。以此来减少公众损失和保障信息安全。
国内外研究现状
现阶段常用的判别方法有距离判别、贝叶斯判别、决策树、随机森林等。目前,《基于贝叶斯和支持向量机的钓鱼网站检测方法》一文中提出用朴素贝叶斯和支持向量机的钓鱼网站判别方法,这种方法优点在于检测时间少而能达到较高的准确度。缺点在于必须先提取钓鱼网站特征,再进行分类检测。所以在选择网站特征向量和参数优化上存在缺陷。并且对钓鱼网站的判定也没有一个完善而统一的标准。
2. 研究的基本内容
本文主要研究的是如何对高维的钓鱼网站数据降维而不影响判别的准确率,确定出几个判别钓鱼网站的关键因素。拟通过fisher判别法,基于基尼系数的决策树和基于chaid算法的决策树研究用哪种判别方法对判别钓鱼网站的效果较为理想,计划通过r软件和spss软件来实现整个判别过程,通过比较这几种方法对鉴别钓鱼网站提出一些建议。并对选择的几种判别方法做一个准确率和其他方面上的比较,以及在应对不同类型数据时的判别方法选择。
3. 实施方案、进度安排及预期效果
2-3月 查阅国内外文献,和导师沟通课题可行性,确定研究判别钓鱼网站的课题
3-4月 浏览国内外数据库,在uci上查询到判别钓鱼网站的影响因素
4-5月运用r软件编写fisher判别和决策树的程序,部分较难的程序通过导师指导后运行出较为理想的结果
4. 参考文献
[1]2009年中国网民网络信息安全状况调查报告.中国互联网络信息中心.2010.3
[2]王怀亮. fisher判别分析及r语言实现[j].商业经济.2011.6; 65-66.
[3]薛毅.陈立萍.统计建模与r软件[m].北京:清华大学出版社,2007