垃圾短文本识别方法研究毕业论文
2021-04-26 21:31:56
摘 要
垃圾短信一直是困扰手机用户和运营商的一个重大问题,垃圾短信的泛滥已经严重影响到了人们的正常生活、运营商形象乃至社会稳定。要想解决此问题,运营商必须建立完善的垃圾短信过滤系统来阻止垃圾短信的传播。由于技术水平有限,运营商往往不能保证完全正确识别每一条短信,并且若将正常短信判为垃圾短信,将严重影响用户。因此,我们对垃圾短信算法进行研究,寻找较优算法。
本文研究了基于短信内容的垃圾短信识别算法,主要使用了朴素贝叶斯算法以及逻辑回归算法,通过对短信内容进行分析,能够高效准确的识别短信内容,取得了较好的效果。
关键词:垃圾短信;朴素贝叶斯算法;文本分类;中文分词;文本向量化
Abstract
SMS has been a big problem that disturbed cell-phone users and mobile operators, the flood of SMS has affected the normal life of people, the figure of mobile operators and even the stability of the society. To solve the problem, mobile operators must set up sophisticated spam filtering systems to prevent SMS from spreading. Due to limited technical level, mobile operators often fail to ensure that each text message is correctly identified and it will seriously affect the users if normal text messages are judged as SMS. Therefore, we study spam algorithm to find a better algorithm.
The paper researches the algorithms based on the content of Spam messages and the naive Bayes algorithm and the logical regression algorithm are mainly used. With the analysis of the content of SMS, it can identify the content of messages efficiently and accurately, and achieved better results.
Key Words: SMS spam; naive bayes; text classification; Chinese words segmentation; text vectorization
目 录
第1章 绪论 1
1.1课题背景 1
1.2国内外研究现状 1
第2章 文本分类技术 2
2.1文本分类技术概述 2
2.2文本准备 2
2.2.1中文分词 2
2.2.2去除单字及停用词 3
2.3 文本向量化 3
2.4权重赋值 4
2.4.1布尔权重 4
2.4.2词频权重 4
2.4.3TF-IDF权重 4
2.5分类算法简介 4
2.5.1朴素贝叶斯算法 5
2.5.2逻辑回归模型(LR) 5
2.5.3支持向量机(SVM) 5
第3章 垃圾短信识别算法介绍 7
3.1朴素贝叶斯算法 7
3.1.1贝叶斯定理 7
3.1.2朴素贝叶斯算法思想 7
3.2逻辑回归算法及随机梯度下降法(SGD) 8
3.2.1损失函数 8
3.2.2随机梯度下降法用于LR 9
3.3垃圾短信文本处理 9
3.3.1垃圾短信特点 9
3.3.2短信文本分词 10
3.3.3短信文本向量化 10
第4章 垃圾短信识别实验结果与分析 11
4.1实现方法演示 11
4.1.1文本预处理 11
4.1.2朴素贝叶斯算法用于短信识别 11
4.1.3逻辑回归算法(LR)用于短信识别 14
4.2实验分析 15
4.2.1实验环境与数据 15
4.2.2实验评估标准 15
4.3实验结果分析 16
第5章 总结与展望 17
5.1本文总结 17
5.2后续展望 17
参考文献 18
致谢 19
绪论
1.1课题背景
随着科技水平的发展,人民的生活水平不断的提高,手机已经成为了每家每户生活必需品。短信是我们广大用户获取信息的重要途径,但是,用户的手机中往往充斥着大量的垃圾短信,其中包含着诈骗、暴力、推销等内容,严重侵害了用户的信息安全,降低了用户对运营商的可信度。有效过滤垃圾短信成为运营商提高服务质量,保障通信信息安全的重要途径[1]。由于发送垃圾短信的成本较低,并且社会监管制度不够完善,一些商业机构为了推销商品,大量群发垃圾短信,严重影响了用户的日常生活。
因此,我们必须对垃圾短信进行清理,政府及有关部门需要治理有效合理的法律制度,严厉打击利用短信进行诈骗、推销等行为。另外,运营商应该从自身出发,建立垃圾短信识别过滤系统,有效阻止垃圾短信的传播。从而保证人们的正常生活,促进社会安全稳定。
1.2国内外研究现状
就目前而言,国内外学者对于垃圾邮件系统的研究相对成熟,但是微博、微信、论坛等新兴互联网产品近几年才逐渐流行起来,其开放性可以让很多用户不受限制的发布一些文本信息。其文本中可能会存在一些无用信息,研究如何对其文本进行话题检测具有巨大的应用价值。因此,国内外的研究学者们都积极研究针对垃圾短文本的检测。早在2015年,中国移动公司就举办过相关竞赛对识别算法进行探索。
对于垃圾文本识别算法的评估,国际上一般采用准确率、查全率等指标进行衡量。
文本分类技术
2.1文本分类技术概述
文本分类(Text categorization)是指在给定分类体系下,根据文本内容自动确定文本类别的过程。20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。人工分类非常费时,效率非常低。90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣.目前在国内也已经开始对中文文本分类进行研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用[1]。
分类系统的构建主要可以分为两个阶段,首先通过学习算法对已知数据建模,然后通过该模型对新数据进行分类。由此可以看出,训练数据以及学习算法的选择,直接影响了对测试数据的分类判断。