基于文本识别的垃圾短信处理开题报告
2021-03-10 23:37:11
1. 研究目的与意义(文献综述)
手机短信作为一种便捷、廉价的通讯方式,在我们的生活中已经是不可缺少的存在了。但是随着短信的日益普及,垃圾短信也随之出现了,它不仅会影响人民的普通生活,甚者会危及社会、国家的公共安全,因此对于垃圾短信的识别与处理研究具有十分重要的意义。垃圾短信的危害显而易见,不仅影响了人们的正常生活,还耗费了人们大量的时间;危害性较大的短信甚者会在社会上引起动乱,形成不良风气;不仅如此,垃圾短信还占用着大量的通讯资源,严重时会造成通讯阻塞。从垃圾短信的危害性来看,对于垃圾短信的识别与处理更是极为重要的。
对于垃圾短信的处理工作,国内外各种机构都十分重视。有些国采取完善自己的法律法规来规范短信信息服务;欧美有些国家还专门成立了一些机构,比如电话信息服务标准检查委员会、最高通话费管委会,对那些非法活动的公司或者个人进行监控。
目前,不管国外还是国内,对于文本挖掘(也称文档挖掘、文本据挖掘)技术的研究变得越来越活跃。由于internet的迅速发展,开放自由的信息共享方式使信息量变得异常巨大,于是在海量短信中发现垃圾短信变得越来越困难,文本挖掘也显得越来越重要。贝叶斯分类器同样具有坚实的数学理论基础以及综合先验数据能力,使其成为当前机器学习和数据挖掘的研究热点之一。文本挖掘包括信息抽取、信息检索、自然语言处理和数据挖掘技术,然而中文文本的挖掘相比英文文本来说难度更大。
2. 研究的基本内容与方案
1.基本内容
学习文本分类识别算法,选择合适的文本分类算法进行研究,用java(matlab、python或其它语言)编程实现该算法;完成整个垃圾短信识别与处理系统,并满足垃圾短信的识别与处理功能。
2.目标
3. 研究计划与安排
第1周—第4周:查阅相关文献资料,明确研究内容,了解研究所需。确定方案,完成开题报告,设计出软件框架;第5周—第8周:完成主要研究工作,完成软件核心模块,撰写论文初稿;
第9周—第12周:完善软件各个模块,撰写论文;
第13周—第16周:对软件功能进行测试,完成并修改毕业论文;
4. 参考文献(12篇以上)
[1] 关娜. 基于文本分类算法的垃圾短信过滤技术研究[d]. 成都:电子科技大学, 2008.[2] surya bahadur bam, tej bahadur shahi. named entity recognition for nepali text using support vector machines[j]. intelligent information management, 2014, vol.06 (02):21-29.
[3] akella lakshmi manohar, norton catherine n, miller holly. netineti: discovery of scientific names from text using machine learning methods[j]. bmc bioinformatics, 2012, vol.13:211.
[4] anand mishra, karteek alahari, c.v. jawahar. enhancingenergy minimization framework for scene text recognition with top-down cues[c]. computer vision and image understanding, 2016.