登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 计算机类 > 物联网工程 > 正文

基于Lucene的全文检索网络资源共享平台的开发文献综述

 2020-04-15 15:42:27  

1.目的及意义
基于Lucene的全文检索网络资源共享平台的开发
我在2018年年底我前往了江苏进行了毕业实习,选择的android开发,最后是要自选题目。我完成了一份具有登陆注册功能,搜索功能,API调用外部资源等功能的手机软件。其中组员曾经利用爬虫爬过相关数据库,使得搜索功能成为该项目的亮点,有作者表,诗经表,诗歌表,可以实现作者搜索,诗经搜索,诗歌搜索以及模糊搜索。我对搜索引擎产生了兴趣,想知道类似Baidu和Geogle是如何处理当今社会如此庞大的数据量的。借着这次机会刚好对Lucene展开学习。
Lucene运用广泛,现在正是大数据时代。原始搜索引擎技术,在数据量过多的时候,数据库的压力就会增大,导致查询速度变慢,所以我们需要更好的方法来解决这个问题。为了分担数据库的压力,解决查询速度变慢的问题,我们将数据库变成索引库,利用Lucene API操作服务器上的数据库,和数据库进行了隔离。

我是物联网专业的,老师给我提出这个课题,也是有他的考量。正如我前面所说,当前正是处于大数据时代,如何处理网上海量的数据,也是当前从事计算机行业的人们密切关注的问题。Lucene的价值是毋庸置疑的,虽然它的功能乍一看上去很单一,本质就是提供给它若干个字符串,它提供一个全文搜索服务,然后告诉你关键词的位置。知道了这个,那么所有符合要求的事情都可以实现。

我找到了Lucene的官方网站 http://lucene.apache.org/,它的wiki百科 https://wiki.apache.org/lucene-java/FrontPage?action=showamp;redirect=FrontPageEN,以及Lucene的鼻祖Doug Cutting的博客 http://blog.lucene.com/ (这里被墙了,没有进去)。顶着扑面而来的英文字母查阅了相关资料,它虽然是2001年就被做出来的高质量开源JAVA产品,但是到现在过去了十八年依旧被热烈的讨论着,国外开发者的热情高涨,证明着它经历了十八年伴随着多次更新和优化,仍旧是一个强大的全文搜索框架。随后我也上了Lucene的中文论坛和博客园,在CSDN上的一个开发人员还创建了相关搜索引擎的小组,主要讨论搜索引擎技术,数据挖掘技术和中文分词技术,它们和Lucene高度相关。博客园的更新截止到了三年前,Nutch论坛更是直接404了,但是这并不代表国内开发人员的停止了对于Lucene的研究。中文资料在10年左右还很少,之后渐渐多了起来。最后,我到了好几个论坛,java贴吧询问过迄今为止,有没有出现比Lucene更优秀的全文检索引擎,答案是没有,因此,我决定以Lucene为基本来设计网站,进行这次毕业设计。
{title}

2. 研究的基本内容与方案

{title}

基于Lucene的全文检索网络资源共享平台的开发

针对数字化文档存储/管理/查询的需求,构建相应的索引和全文检索引擎,可以支持对网络平台上的文档信息进行全文检索。

该系统具有以下主要功能:

登陆注册模块:用户可以登陆或者注册,用户分为普通用户和管理员用户。

上传下载更新模块:任何用户都可以上传和下载文档,格式支持word,pdf,html等;管理员用户可以对文档进行更新或者删除操作。

搜索模块:在Lucene的基础上,对word 、excel、pdf、html等格式的文档信息构建索引,对全文检索提供支持。并且支持用户按照导航、关键词和关键句的方式搜索和访问网络平台上的文档。

数据库:用户表:存放用户信息,用户登录时进行密码比对和权限比对。

文档表:存放文档

依据能力和时间完成系统的存储优化,尽量增多平台能够支持的语言

3. 参考文献
[1]周登朋,谢康林;Lucene搜索引擎【J】.计算机工程,2007,10(18)

[2]管建和,甘剑峰;基于Lucene全文检索引擎的应用研究与实现【J】.计算机工程与设计,2007,32(02)

[3]姚攀.从Lucene到Elasticearch:全文检索实战【M】.北京:清华大学出版社,2017:22~85

[4]吴众欣,沈家立;Lucene分析与应用【M】.北京:机械工业出版社,2008;

[5] Otis Gospodnetic,Erik Hatche;Lucene IN ACTION【M】,USA:Greenwich,2007;

[6] Gerd Wagner and Mircea Diaconescu;Web applications with JavaScript or Java【M】,Berlin:Walter de Gruyter,2018

[7]George-Sebastian Pirtoaca, Traian Rebedea, Stefan Ruseti;Improving Retrieval-Based Question Answering with Deep Inference Models【M】,USA:Traian Rebedea,2018

[8]Michael McCandless,牛长流,肖宇译;Lucene实战【M】,北京:人民邮电出版社,2011

[9]Ramdoot Pydipaty, Amit Saha;On Using Non-Volatile Memory in Apache Lucene【M】,USA:Thu,2019

[10]邱哲,符滔滔;Lucene 2.0 Heritrix【M】,北京:人民邮电出版社,2007

[11]李刚,宋伟,邱哲编;征服Ajax Lucene构建搜索引擎【M】,北京:人民邮电出版社,2006

[12]王学松; Lucene nutch搜索引擎开发【M】,北京:人民邮电出版社,2008

[13]李刚;疯狂JAVA讲义【M】,北京:电子工业出版社,2012

[14]林胜利,王坤茹,孟海利:JAVA优化编程【M】,北京:电子工业出版社,2005

[15]辛运帏,饶一梅,马素霞;JAVA程序设计【M】,北京:清华大学出版社,2006

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图