特征选择方法在邮件分类中的应用开题报告
2021-12-12 14:10:56
1. 研究目的与意义及国内外研究现状
选题目的:利用文本挖掘技术进行邮件的分类
选题意义:
网络通信技术的飞速发展极大促进了电子邮件服务的广泛普及,电子邮件已经成为生活在信息时代的人们日常生活的重要部分。人们不仅可以通过电子邮件来处理日常事务,而且越来越多的用户通过电子邮件来传达和交流一些正式或重要的信息。但最近几年,大量的商业、色情和反动垃圾邮件占互联网上所有邮件的比重不断增加,严重污染了网络环境,占用了大量的传输、存储和运算资源,成为让众多网民普遍感到头疼的事情。因此,实现邮件的分类、有效过滤垃圾邮件成为现实的迫切需求。然而,邮件信息属于文本性的的非结构化数据,它并非传统的数据挖掘技术能够直接处理的数据类型,必须将其转化为计算机能够识别并进行分析的形式,完成这一任务就需要文本挖掘技术的应用。因此,对邮件的分类过程就是文本挖掘的一个执行过程。
2. 研究的基本内容
1、运用改进的卡方统计对邮件数据进行特征选择,分别用朴素贝叶斯及k近邻法对邮件进行分类,并利用查全率、查对率、宏平均、微平均以及f1值对分类方法进行性能评估
2、运用互信息对邮件数据进行特征选择,分别用朴素贝叶斯及k近邻法对邮件进行分类,并利用查全率、查对率、宏平均、微平均以及f1值对分类方法进行性能评估
3、比较在相同的特征数目下,改进的卡方统计和互信息的性能
3. 实施方案、进度安排及预期效果
实施方案:
1、查阅相关资料,了解特征选择方法、文本分类方法以及性能评估指标
2、结合本文具体的邮件数据,选择合适的特征选择方法进行降维,并对不同的分类方法进行性能评估
4. 参考文献
[1]赵静,刘培玉,许明英.邮件过滤中特征选择方法的性能评价与分析[j].计算机应用研究,2012,v.29;no.24402:693-697.
[2]肖婷,唐雁.改进的卡方统计文本特征选择方法[j].计算机工程与应用,2009,v.45;no.64514:136-137 140.
[3]张鹏招.基于卡方统计的中文文本分类特征选择方法研究[d].重庆大学,2008.