支持全文检索的专业文献共享平台的开发毕业论文
2021-12-02 13:05:33
论文总字数:19192字
摘 要
随着因特网的高速发展,网络信息资源数量正在高速增长,数据的量已经从PB级别上升到了ZB级别。大量数据带给人们丰富知识的同时,也产生了如何高效有效获取数据的难题。
本文针对因特网上目前存在的各种格式专业文献数据,基于Lucene全文检索工具库,设计出了一种支持全文检索的专业文献共享平台。该系统专注于进行专业文献的信息检索,对各种格式的文献文本数据进行合理的文本抽取,例如常见的PDF格式文件、Word格式文件、Text格式文件,最终利用这些文本建立相应的索引库,并且在搜索结果中对搜索关键词进行高亮显示,具备一定的准确性与全面性。同时本系统选用了Java语言中比较成熟的SSM开源框架技术来规划系统开发的层次,使得系统满足Java系统设计原则中各个模块间高内聚低耦合原则,同时系统也具备易于维护和扩展的特性。
本文介绍了Lucene全文检索工具包以及SSM框架等关键技术的原理,并合理分析专业文献共享平台的需求,对共享平台的各功能模块进行了细致的描述,然后利用关键技术实现了建立索引库、用户上传下载文件、完善检索流程、方便的文件管理等核心功能,并在设计完毕后对系统进行了详细的功能测试。本系统基本上完成了对建立的索引库内的各种文献的检索,并保证了检索效率,具有重要的现实意义。
关键词:全文检索;Lucene;SSM框架;文件管理
Abstract
With the rapid development of the Internet, the number of network information resources is growing at a rapid rate, and the amount of data has risen from PB level to ZB level. While a large amount of data brings people a wealth of knowledge, it also poses a problem of how to efficiently and effectively obtain data.
This article designs a professional document sharing platform which supports full-text search based on the Lucene full-text search tool library for various formats of professional literature data currently on the Internet. The system focuses on the information retrieval of professional literature, and extracts the text data in various formats, such as common PDF format files, Word format files, and Text format files, and finally uses these texts to establish corresponding index libraries and the search keywords are highlighted in the search results, with certain accuracy and comprehensiveness. At the same time, the system selects the mature SSM open source framework technology in Java language to plan the level of system development, so that the system meets the high cohesion and low coupling principle of each module in Java system design principles, and the system also has the characteristics of easy maintenance and expansion.
This article briefly introduces the principles of Lucene's full-text search toolkit and SSM framework and other key technologies, analyzes the needs of professional document sharing platforms reasonably, describes each functional module of the sharing platform in detail, and then uses key technologies to achieve the establishment of an index library , the user uploads and downloads files, improves the retrieval process, convenient file management and other core functions, and performs detailed functional tests on the system after the design is completed. This system basically completes the retrieval of various documents in the established index database, and ensures the retrieval efficiency, which has important practical significance.
Key Words: full-text retrieval; Lucene; SSM frame; Document management
目 录
第1章 绪论 1
1.1研究背景 1
1.2设计目标 1
1.3研究意义 2
1.4论文结构与内容安排 2
第2章 相关技术介绍及分析 3
2.1 全文检索技术 3
2.2 倒排索引 4
2.3 Lucene全文检索工具包 5
2.2.1 Lucene工具包简介 5
2.2.2 Lucene的系统架构 6
2.3 SSM框架简介 7
2.3.1 Spring 8
2.3.2 Spring MVC 8
2.3.3 Mybatis 8
2.3.4 SSM框架应用 8
第3章 共享平台系统设计 10
3.1 系统需求分析 10
3.2 系统功能模块图 10
3.3 数据库需求分析 11
3.4 开发环境 14
第4章 共享平台系统实现 15
4.1 全文检索功能 15
4.1.1 创建索引 15
4.1.2 Lucene查询索引 17
4.1.3 高亮渲染结果 18
4.2 文件资源的上传和下载 19
4.2.1 文件上传 19
4.2.2 文件下载 22
第5章 系统运行与压力测试 23
5.1 用户登录过程 23
5.2 文章检索过程 24
5.3 查看公告功能 25
5.4 论文的上传下载过程 26
5.5 系统压力测试 28
第6章 结论 29
6.1 主要成果 29
6.2 展望 29
参考文献 30
致 谢 31
第1章 绪论
1.1研究背景
随着电脑和网络的普及,互联网行业都得到了迅猛的发展,也使得如今的互联网信息数据总量有爆发式的增长。大量数据带给人们丰富知识的同时,也产生了如何高效有效获取数据的难题。
目前,大部分网站和文件管理系统提供的检索方式一般有两种:
(1)使用关系数据库的like语句查询进行模糊检索。这种方法实质上是一种简单的字符串匹配算法[8],信息量小时,检索效率跟精确度都很高,但是在上文提到的信息量激增的情况下,检索的时间将会大大增加,其系统性能也很难达到用户使用需求。
(2)类似于大型搜索引擎Google,baidu等为用户提供的站内全文搜索功能[1]。这种全文搜索引擎一般都遵循某种机制,在用户输入相应的搜索关键词之后,通过在因特网中收集、处理信息,然后建立相应的信息索引库,引擎再检索索引库获取结果,以此来为用户提供信息查询服务。
面对浩如烟海的信息资源,用户不可能使用规的、低效的依照信息目录的方式查找所需信息。在学术研究领域,专业论文多年累计,加之研究人员不断发表新的研究成果,科技论文数量只会在现有基础上更加庞大。在这种形势下,如何从互联网中高效、准确地获取所需信息,是一个非常重要的课题,也直接影响科研人员进行学术研究的效率。
1.2设计目标
上文提到的搜索引擎,是目前互联网用户快速定位所需内容的最佳工具。用户登入系统,在输入查询关键词后,搜索引擎会根据该关键词检索引擎索引库,然后系统会按照一定的排序算法将搜索所得信息反馈给用户,而这类搜索引擎的核心技术即全文检索技术[2]。
针对学术研究领域中浩如烟海的信息资源查询困难问题进行探索和研究,并针对文献共享平台进行详尽的需求分析和功能设计,现准备基于lucene全文检索开发一个支持全文检索的专业文献共享平台。
主要的目标如下:
(1) 基于lucene框架,设计存储结构,存储文档、索引及其它相关信息,如对.pdf,.doc(x),xls,.txt等格式的文件进行数据选取,然后根据lucene的索引构建原理,转换成创建索引所需要的半结构化数据,建立能够支持全文检索的索引库。
(2) 高亮显示结果,在搜索完成界面显示对应每个结果的一段摘要信息,并在这些摘要中,将搜索关键字高亮显示出来。
(3) 支持用户按照导航、关键词和关键句的方式搜索和访问平台上的文档;
(4) 针对注册用户,支持数字文档的上传和下载、更新和维护。实现系统管理功能,能够支持网络资源共享平台内文档目录的管理和文档的管理,以及文档的存储优化。
(5) 本系统选用了Java语言中比较成熟的SSM开源框架技术来规划系统开发的层次,使得系统满足Java系统设计原则中各个模块间高内聚低耦合原则,同时系统也具备易于维护和扩展的特性。
1.3研究意义
本文论述了本人设计的基于lucene技术的支持全文检索的专业文献共享平台的大致开发和研究的过程,实现了多种格式的文献共享,有效节约了用户从互联网上的海量文献信息中获取目标文献的时间成本。本文主要具有以下几点意义:
(1) 深入研究全文检索系统,阅读大量全文检索相关文献,并利用Lucene全文检索工具包完成了专业文献共享平台的开发设计,将理论付诸实践[3]。
(2) 使用了SSM框架设计平台,使用shrio技术对用户登录进行身份验证,不仅能保证系统各个模块易于维护和扩展,并且保证了用户账户信息的安全。
(3) 为用户提供了友好的功能界面以及智能检索数据的方式,可以有效提高用户检索学术文献的效率与准确度。
1.4论文结构与内容安排
请支付后下载全文,论文总字数:19192字
相关图片展示: