基于内容的垃圾短信鉴别开题报告
2021-12-12 14:10:21
1. 研究目的与意义及国内外研究现状
随着时代的高速发展,世界步入信息时代,我国通信服务业应运而生,移动通信业务的快速发展对于国民的生活有利有弊,近年来,移动通信所造成的的弊端凸显,部分非法的服务提供商运用垃圾短信传播不良信息,不仅加重了移动营业商的负担,也给社会造成了负面的影响和经济损失,如网络上频繁出现的利用手机诈骗钱财的新闻,也同时给人民的日常通信交流造成极大的不便,因此,对于垃圾短信的判别和过滤极具研究意义和社会价值。本文旨在挖掘文本数据进而从短信文本上直接的判断其为垃圾短信的概率,从多方面的过滤垃圾短信,使得移动通信业务更加完善。
国内外研究现状
2)wm算法:wm算法的雏形是被boye和moore提出,利用关键词汇匹配技术,建立对数据进行分类产生的哈希表,对垃圾短信鉴别的模型中应用,在需要被测试的短信文本中间隔性取出字符,对比上述分类器产生的表,寻找相同字符串,并找到其所在的位置,决定字符串的移动或终止。直到1994年,文章《a fast algorithm formulti -pattern searching》首次针对wm算法的不足修改,该算法被修正优化,在过滤过程中,省却了许多不必要的步骤,对于垃圾短信过滤中有着较好的效果。
3)bayes分类算法:建立在贝叶斯方法上的分类器方法,被广泛应用于垃圾邮件的过滤和垃圾短信的过滤,主要的分类思想在于利用贝叶斯分类器对于数据的分类,建成许多个类别的哈希表,对需要探究的文本数据每个类别的概率大小进行对比,一般将其归类为概率最大的一个类别里。2004年,葛广为在《贝叶斯分类在垃圾短信过滤中的应用》中利用贝叶斯分类算法,创新性的应用wfmi文本数据提取法和互信息特征提取方法综合考虑过滤系统的精确性,并利用改进的贝叶斯方法较为成功的对文本数据进行了过滤。
2. 研究的基本内容
论文主要内容是对国外垃圾短信鉴别的基础上,分析黑白名单技术,客户端提取发送短信的地址,短信文本的特征鉴别是否为垃圾短信,重点从短信文本数据分析,从文本数据中提取关键值进行分析,运用文本数据的长度分析得出垃圾短信区别于正常短信的特征,分类两种短信,从两类短信中各提取一部分数据,用文本数据的预处理方法提取数据中的敏感词汇,应用贝叶斯方法求出是正常短信和非正常短信的概率,其次任意的抽取数据中的若干文本数据项进行分析,判别分析得出该研究方法判别是否为垃圾短信的失误率,然后根据对应的失误率高低对模型进行优化调整得出结论。
3. 实施方案、进度安排及预期效果
实施方案:从4月初开始计划论文的进程,包括选好题目后的准备工作。
到4月中旬实现论文的数据采集和数据的初步处理,查阅文献对计算数据所得出的结果进行分析得出结论。
到4月末论文的结构基本确定,少数的细节需要进一步的优化,预计后期会将论文多几遍修改,以完善论文的结论
4. 参考文献
[1]薛毅,陈丽萍.r统计建模与r软件[m].北京:清华大学出版社,2007:385-397.
[2]李雯.基于贝叶斯技术的邮件过滤[d].山东:山东师范大学,2008.
[3]葛广为.贝叶斯分类在垃圾短信过滤中的应用[d].云南:云南财经大学,2004.