登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 电子信息类 > 通信工程 > 正文

基于爬虫数据的分布式搜索服务开题报告

 2020-05-01 08:50:19  

1. 研究目的与意义(文献综述)

1.1目的及意义

随着互联网以及新媒体的不断发展,人们每天能够从互联网上接收到爆炸般的信息量,当然这些信息(包括但不限于新闻、视频、文字)并不一定是我们所需要的,当我们需要查找包含某一特定内容或关键词的文献或新闻时我们就必然离不开搜索引擎。而说到搜索引擎,就不能不提爬虫系统,本质上来说搜索引擎查询的内容即为爬虫所爬取到的格式化或非格式化的内容或网页。并且由于搜索服务的访问量不断增大(参考国内知名搜索引擎百度首页的访问量)在架构上设计为分布式可以加强服务的负载能力因此。通过研究该课题不仅能够了解搜索引擎与爬虫的工作原理,同时可以通过在架构(使用分布式架构)与细节代码上的优化来增强搜索服务的负载能力,从而加强服务的被访问能力。同时可以完成一款搜索服务,可以为查询我们所需要的特定内容提供极大的便利。

1.2国内外的研究现状分析

由于互联网使用人数越来越多,使用分布式架构势在必行,国内几乎qps(每秒访问量)超过20即日pv(页面访问量170万)以上的网站或soa服务都采用了分布式架构(当然峰值qps更高的需要更多的机器),若不采用分布式的架构方式则可能造成网站无法访问或访问出现错误等等问题。就拿国内最典型的ota在线旅行类网站携程的退改签查询soa服务接口来举例(qps大约在60-70,峰值可达到80左右),就使用了分布式进行架构设计,使用了多台服务器进行协同操作。同样的,像国外大部分大型网站或数据库也都使用了分布式的架构代替集中式的架构模式以保证网络服务的顺畅运行。同时,在国内也有许多关于分布式架构的研究,通过阅读《基于docker集群的分布式爬虫研究与设计》[1]我了解到部分爬虫是无法支持分布式爬取数据的,而分布式爬取数据可以进一步提高数据的爬取速度,因此,在爬虫的设计上也可以将其设计为分布式,并且开启多个线程使用代理来爬取数据,而使用代理的原因是为了防止单个ip访问服务器过于频繁导致ip被封禁。并且,在《基于soa架构的分布式服务化治理方案的研究》[2]这篇论文中也指出目前soa服务架构设计为分布式是势在必行的。通过负载均衡同时使用自定义的rpc框架可以加快服务器的响应速度,进而提升用户体验,减小用户的卡顿感。

1.3本文研究概述

本文通过爬虫来爬取数据来构建一个分布式搜索服务,同时对服务进行深度优化,包括添加缓存或使用异步方式进行访问,同时对搜索服务的功能进行深入研究,其中包括搜索热词等功能拓展。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

2.1 研究的基本内容

当我们在使用搜索引擎时,其实就是在查找利用爬虫爬取的格式化或非格式化的文本或网页(html)。同时,由于国内网民数量的进一步增大,使用网络的人数增多,搭载搜索引擎的服务器压力进一步增大,这时使用什么方式的架构就成为了我们首要应当思考的内容,这时候就需要将搜索服务设计成分布式架构,在服务的前面做好负载均衡,让流量分流给不同的服务器进行处理,这样可以增大服务器的负载量。当然,即使服务使用分布式架构,若流量直接击中数据库也是十分危险的一件事(可能造成数据库挂掉而获取不到数据),因此我们在架构的设计过程中加入了缓存层,这样即可减小数据库的压力,并且,在数据库的架构设计上也应该采用分布式数据库,并进行合理的分库分表操作,当然分库分表操作也是更好的细化数据库的字段内容,同时也可以增大数据的存储量,防止同一个数据库中的数量爆炸而导致查询速度变慢。

2.2 研究目标

该设计的目的就是为了应对人们日益增长的知识/内容搜索需求,同时防止访问量过大造成的服务器宕机、服务无响应以及服务器不可用,保持3高(服务的高可用,高性能,高并发)的原则来设计服务。

在保证高性能的同时同时也为搜索引擎添加搜索热词、竞价排名等丰富的功能,来满足不同人对搜索引擎的不同需求。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1周—第3周 搜集资料,撰写开题报告;

第4周—第5周 论文开题;

第6周—第8周 编写爬虫部分代码,同时完成部分论文初稿;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]李文龙. 基于docker集群的分布式爬虫研究与设计.2016

[2] 郭正敏. 基于soa架构的分布式服务化治理方案的研究.2016

[3] duanyan-e, "research about based-soa agriculture management informationsystem", information and automation (icia) 2012 international conferenceon, pp. 78-82, 2012.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图