面向Web的大数据搜索系统设计与开发毕业论文
2020-02-16 22:29:05
摘 要
随着信息技术的迅猛发展,大数据时代已经悄然来临。当前,商业、服务业和制造业等各种行业每天都在产生着大量的数据,尤其是互联网上的Web数据。如今,Web数据呈指数级增长,使得开展大规模Web数据检索与分析的工作变得越来越困难,这时必须发掘出新的技术作为相应的技术支撑来打破此种僵局。基于elasticsearch技术就是其中的一种新技术,它使得我们能够对大规模的Web数据进行有效的利用。在此基础上,本文通过Elasticsearch以及其他开源工具实现了一个面向Web的大数据搜索系统,这对于解决大数据时代的信息爆炸有着重要意义。
论文主要研究使用Elasticsearch,Logstash,Kibana结合其他编程工具实现一个面向Web的大数据搜索系统。
研究结果表明,基于Elasticsearch大数据实时检索技术构建大数据搜索系统对于提高海量Web数据检索与分析的工作效率和在数据爆炸式增长的环境下高效、准确地检索Web数据有重要作用。
本论文的特色在于,介绍了使用ELK开源数据栈开发面向Web的大数据搜索系统的过程和技术问题,提出了一套开发高真实,高交互的3D虚拟校园漫游系统的可行方案。
关键词:大数据;信息检索;分布式搜索引擎
Abstract
With the rapid development of information technology, the era of big data has quietly come. At present, various industries such as business, service industry and manufacturing industry are producing a large amount of data every day, especially the Web data on the Internet. At present, the exponential growth of Web data makes it more and more difficult to carry out large-scale Web data retrieval and analysis. At this time, new technologies must be explored as the corresponding technical support to break the deadlock. One of these new technologies is elasticsearch technology, which enables us to efficiently utilize large-scale Web data. On this basis, this paper implements a web-oriented big data search system through Elasticsearch and other open source tools, which is of great significance in solving information explosion in the big data era.
Paper mainly studies use Elasticsearch, Logstash, Kibana combined with other programming tools to implement a large data for Web search system.
The research results show that establishing big data search system based on Elasticsearch big data real-time retrieval technology plays an important role in improving the work efficiency of massive Web data retrieval and analysis as well as achieving efficient and accurate retrieval of Web data in the context of data explosion.
The feature of this paper is that it introduces the process and technical issues of developing a web-oriented big data search system with the open source data stack of ELK, and proposes a feasible scheme for developing a 3D virtual campus roaming system with high reality and high interaction.
Key Words:Big data; Information retrieval; Distributed search engine`
目 录
摘 要 3
Abstract 4
第1章 绪论 6
1.1 研究背景以及意义 6
1.1.1 研究背景 6
1.1.2 研究意义 6
1.2 研究现状 8
1.3 论文研究内容 8
1.4 论文组织结构 9
第2章 相关技术研究 10
2.1 网络爬虫技术 10
2.2 分布式搜索技术 10
第3章 诗词搜索系统总体设计 12
3.1 需求分析 12
3.2 系统设计 12
3.2.1 诗词搜索系统网络架构 12
3.2.2 诗词搜索系统总体设计 13
3.2.2 诗词搜索系统数据库设计 14
第4章 诗词搜索系统实现 15
4.1 诗词搜索系统的开发环境 15
4.2 Python爬虫的实现 15
4.2 Elasticsearch搭建 17
4.4 可视化界面的实现 27
第5章 实验结果和分析 28
5.1 实验结果 28
5.1.1 Python爬虫结果 28
5.1.2 Elasticsearch搭建结果 29
5.1.3 诗词数据查询结果 32
5.2 实验结果分析 32
第6章 总结与展望 34
6.1 全文总结 34
6.1 未来展望 34
参考文献 36
致 谢 38
第1章 绪论
本行主要介绍Web大数据搜索的研究背景及意义,以及本文主要关注的研究内容及组织结构。
1.1 研究背景以及意义
1.1.1 研究背景
随着时代的发展和科技的进步,近年来WEB数据呈指数型增长,这也使得高效、准确地搜索WEB数据遇到瓶颈[1]。自从2012年,大数据(Big data)一词开始被越来越多人提及,大数据用来定义和描述当今信息时代数据爆炸的局面,全球知名公司麦肯锡是最早提及大数据这一词。大数据在我们生活的各方面都有重要应用,在各个行业具有重大的商业价值,因此学习、研究大数据是一个重要课题。在海量复杂的数据中,如何利用好大数据,获取我们想要的信息也成为国内外搜索引擎主要解决的问题[2]。
搜索技术作为一个成熟的技术,它将WEB大数据进行规整,用户可进行开放式搜索,主要分为如下三步:从互联网搜集数据;对数据进行规整;用户进行查询。如今全文搜索引擎是最流行的搜索引擎,虽然数据庞大,但是运用分布式技术,使得用户查询时间被控制在百豪秒内。国内的搜索引擎研究时间较短且集中于理论研究,缺乏实践经验,因此如何在海量数据中利用高效的检索模型为用户搜索到有用的信息成为国内搜索引擎有待解决的问题,数据已经成为逐渐成为一个国家战略[3]。
1.1.2 研究意义
通过对大数据的研究,大数据可以改变我们的生活、工作甚至是思维,现在大数据已经应用于各个方面。大数据可以为企业带来可观的收益,大数据的作用在于:辅助决策[4],当我们拥有数据时,利用海量数据进行数据分析,寻找规律,预测趋势,这些都有助于企业或个人做出决策。掌握的数据越多,做出的决策越有可能接近科学、合理、准确。可以说大数据本身并没有价值,但是大数据和其他领域相结合时,将会体现出重大的价值。
(1)电商、广告领域
优秀的电商企业也是运输局、大数据的高手,如亚马逊和阿里云。阿里巴巴靠数据和计算高效调动微商、快递员、车辆等,仅用13年就超越了沃尔玛用54年实现的规模[5],成为世界第一零售平台。电商的全部运营过程都离不开大数据的应用,数据对电商的作用日渐突出,各大电商纷纷对大数据进行采集和挖掘。搜集消费者的消费数据,可以帮助商家预测顾客需要哪类商品,并推荐相关商品。例如淘宝推荐商品和店铺,网易云推荐歌曲等。还可以预测用户的购买力,对普通购买力用户推荐普通商家,对高购买力的用户推荐大牌商品。如今这些电商网站对用户购物行为进行预测,包括:购物行为预测,商品销量预测。
(2)军事
在军事领域,大数据激发了前所未有的活力并起到了重要的作用。如今均是大数据成为各国军事科技竞争的制高点,军为民用,民为军用[6],国防大数据中有许多非公开数据,需要数据伪装、数据欺骗的机理和方法。大数据成为提高和巩固战斗力的重要因素,确保战胜可能发生的战争。大数据在作战方面有着举足轻重的作用,因此战争形式也会有崭新的变革——数据战,数据攻防将会涵盖到各方面:陆、海、空、天、电等多维空间[7]。这就意味着军事管理必须着眼于提高部队数据作战能力。
(3)医学领域
医疗行业是最先使用大数据的传统行业之一,大数据主要应用于以下五个领域:临床业务、付款/定价、研发、新的商业模式、公众健康[8]。在这些场景下应用大数据对于提高医疗效率和效果有巨大的作用。
近年,国家致力于发展医疗大数据,提供大量资金来进行医学分析。大数据在临床医学研究中意义重大,可用于分析风险因素和疾病之间的关系,从而在大量研究中获取规律,寻找最有效的救治方案[9]。样本不足一直是人们进行医学研究的阻碍,伴随着大数据的崛起,医学大数据技术体现出显著的优势,对医学大数据进行挖掘以产生新的知识是目前各类组学研究的重点。
(4)旅游领域
大数据在旅游业的应用典范是一家名为Hooper的旅游网站,Hooper利用大数据技术,为游客提供景点推荐,除此之外,还有许多网站、旅游企业、旅游管理部门纷纷应用了大数据。目前旅游业对大数据还停留在认识阶段,还缺乏应用经验,只有携程、艺龙、去哪儿等大的平台型互联网企业才能掌握足够大的数据。旅游业大数据要从搜集数据开始,一步一步搭建一个完整的旅游智慧系统[10],现在国内旅游业大数据应用主要有:旅游路线的个性化定制、旅游产品的个性化推荐、利用GPS定位来完善景区的用户体验、实现景区的无人购物系统、利用运营商的数据实现游客的人流分析、利用人脸识别技术识别管理逃票、利用视频技术、电子巡更、门禁、远程求助实现、利用区块链技术改善旅游体验
(5)教育领域
大数据在大数据领域的地位越来越高,现在基于互联网的教学方式也在教育领域中逐步有了一时之地。在学校教育中,数据占据了重要的地位,成为最主要的指标,这些通常表示为考试成绩,还包括入学率、出勤率、辍学率、升学率等。对这些数据进行有效高效统计有助于全面掌握一个学生的信息及学习轨迹,有助于师生互动。教育领域应用大数据主要是为了提高学生的学习成绩,教育工作者和研究者已经开发出从大数据中提取价值的5种主要的技术,分别是:预测、聚类、相关性挖掘、升华人的判断、用模式进行发现,使得教育变得更加人性化。
(6)航天工业领域
从航空公司的角度,大数据对于他们的营销起着至关重要的作用,其实,当我们通过ECIF系统收集旅客过往喜好的同时,大数据分析的准备工作就已经在被很好的执行了。这些静态数据的存储和使用,为我们贴心的、个性化的服务提供了可能,而这只是数据的简单采集和应用。可见大数据对于航空行业营销至关重要。
因此论文选取面向Web的大数据搜索系统设计与开发为题,其研究意义可以归纳为:基于Elasticsearch大数据实时检索技术构建大数据搜索系统,提高检索效率和准确性。
1.2 研究现状
随着信息时代的信息爆炸,大数据一词进入人们视线,大数据得到国内外的广泛的重视,表现在:国际大数据战略决策、国际大数据产业变革、大数据计算模式与系统、大数据存储与管理、大数据采集与预处理[11]。在数以亿计的文档、网页中搜索想要的信息显然已经不是一件轻松的事,数据数量仍然以指数形式上涨,传统数据库已经不能满足高效、准确的需求。目前,全文搜索引擎为最主流的搜索引擎,可以利用分布式技术检索海量数据,使用户搜索的响应时间控制在百毫秒以内,同时支持纠错功能[12]。全球最大的搜索引擎公司Google,同时也是大数据的鼻祖,在Google之前,全球最主流的搜索引擎是Yahoo,Google存储海量网页构建搜索引擎,利用大数据技术使得搜索有了质的飞越[13],使Google脱颖而出。
Doug Cutting最先做出Hadoop, Hadoop有着低成本、高可靠、高扩展、高有效、高容错等特性,因此,各种基于Hadoop的工具应运而生。2000年,Lucene被提出,开发者可以利用这套工具类库进行中小型网站的开发。2004年,Yonik Seeley创建了Solr,然后Solor技术逐渐成熟,成为企业级搜索引擎[14]。2010年,Shay Banon发布了Elasticsearch的第一版,Elasticsearch是一个接近实时的搜索平台,基于Lucene, 可以很容易进行二次开发,而且也越来越受企业用户的喜爱。
以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。
相关图片展示: