基于机器学习的验证码识别算法及实现文献综述
2020-04-14 17:28:34
1.1研究目的及意义
验证码(CAPTCHA)是“Completely Automated Public Turingtest to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写,验证码在设计之初只是一个用来区分人和计算机程序的图灵测试,随着互联网的发展,现在的验证码主要作为维护互联网安全的工具。验证码广泛应用在互联网各个领域,也称为互联网安全防火墙,本质上验证码是为了区分人与机器人,防止网络机器人的攻击。一般会出现在用户登录网站、网站的注册、信息的查询、网站发帖等场景。在这些场景中我们希望用户是一个真正的人,而不是计算机程序。图片字符识别对人类来说是很简单的,然而对计算机程序来说却比较难。因此验证码的存在能一定程度的维护一个良好的网络环境。
全球通行的字母、数字验证码是目前最为广泛使用的一种算法较为简单,相对访客而言比较人性化的简单设计之一。随着验证码的普及与发展,最初设计的文本验证码演变出一些新的形式,较为本土化且相对较难的有基于汉字的验证码,目前主要出现在国内,由于中国人的母语是汉语,且汉字的可识别率不是很高,这使得汉字顺利成章的被应用到验证码中,然而由于汉字的局限性,面向全球互通的互联网网站,大多数可以采用的素材还是基于字母和数字的文本验证码。
当验证码成为网站登录和注册环节的标准配置以后,其安全性和良好的用户体验设计如同跷跷板的两端一样难以制衡。而通过调查,网站的访问者们并不愿意在这方面费神,很多人抱怨有些验证码太难,并希望验证码尽可能简单,而不是让用户绞尽脑汁。出于对用户体验的考虑或是自身设计上的原因,这就使得大部分的网站投身于简单易行的验证码模式来完成想象中安全验证码应有的职责和任务。
然而随着互联网技术的发展,尤其是信息技术与消费的快速结合,验证码这个基础防线面临的冲击日益强大。验证码的出现催生了一批新工种,许多人开始研究网络机器人技术,用来实现邮箱自动注册、群发信息、自动灌水、自动登录等功能,同时也带来了大量的互联网安全问题,比如刷票、用户批量注册、密码暴力破解、社区恶意发帖等。本文以此类验证码和部分验证码的验证过程为研究对象,剖析其中可能存在的安全隐患,尝试分析验证码的验证过程来完成对验证码安全性考验的实验,提出一些平衡安全性和良好的用户体验的思路,完善整个验证过程的流程,以帮助那些账户信息和内容具有隐私和很大价值的网站,提升验证码的安全性,完善整个验证过程的流程。
1.2 国内外研究现状
我国的数字识别研究起步较晚,从80年代开始了它的研究工作,经过科研人员 十多年的辛勤努力,印刷字符识别技术的发展和应用有了长足的进步,如今对印刷体 识别己经是一门相对成熟的技术。
在过去的数十年,研究者们提出了许许多多的识别方法,这些方法大致可分为三类:基于模板匹配的方法、基于字符结构的方法和基于BP神经网络的方法。一般来说,模板匹配法比较简单,程序实现起来也比较容易,重要的就是把毎个数字字符的模板做好。为了提高识别率,可以通过字符的结构特征,来自定义可行的区分方法,这就是上面的第二种识别方法,这种识别方法可以根据字符各自的特征自定义不同的 算法研究,研究方法比较广泛,识别速度比较快。第三种识别方法即神经网络法,是一种比较先进的方法,如果训练时间足够长,训练样本比较合适,它的识别率相对前 两种方法而言要更高。但BP神经网络也有它自身的缺陷,所以神经网络法还有待于近一步的改善和发展。
2010年,朱绍文,陈光喜针对传统的基于模板匹配和字符结构的验证码的识别技术对字符大小、倾斜等因素非常敏感的缺陷,提出了一种基于字符形状的验证码识别方法。许明在其硕士论文中选取了一些具有代表性的验证码做了识别实验,说明了它们的不安全之处,并提出了两种新型的验证码。2011年,王琨等采用局部极小值和最小投影值分割的方法分割有模糊粘连字符的猫扑验证码,采用颜色聚类与竖直投影结合的方式分割交叉粘连的西祠胡同网站验证码,最后用卷积神经网络识别,都取得了较高的识别率。而贺强、晏立对粘连字符的复杂验证码不进行分割,采用整体识别的方法,用改进的形状上下文方法进行识别。Elie Bursztein等人分析了验证码的设计缺陷,尝试破解15个当时全球最流行的网站的验证码,成功地识别出了其中的13个,并给出了验证码设计的—些建议。
{title}2. 研究的基本内容与方案
{title}2.1 基本内容
最新文档
- 华北地区夏季降水多年、少年近地层水汽场及风场分布特征开题报告
- 天山地区典型流域降雪分布研究文献综述
- 2016年台风狮子山路径突变原因的初步分析开题报告
- 北京和寿县地区边界层急流观测与模型的对比文献综述
- 具有双Kelvin波结构MJO活动的再分析开题报告
- 基于单片机的温控风扇设计文献综述
- 1961-2015年江苏省气候资源的时空分布规律开题报告
- 智能搬运机器人文献综述
- 基于类型的电影推荐系统文献综述
- Bi6S2O15的合成及其降解有机污染的研究开题报告
- 不确定时滞奇异摄动系统的鲁棒控制器设计文献综述
- 小型双模SIW滤波器的研究与设计开题报告
- 我国绿色出行政策执行研究——以南京市为例文献综述
- 试论李碧华小说中的爱情悲剧开题报告
- 基于FPGA的电子相册设计文献综述