基于java的文本搜索引擎毕业论文
2022-06-28 23:18:26
论文总字数:24852字
摘 要
文本搜索引擎指自动从网上下载信息,经过一定整理后,提供给用户进行查询的系统。
互联网上的信息浩好大而繁多,且无规律可循,所有信息像夜空上的一颗颗星星,网页之间的链接是这些星星之间交错的轨迹。而文本搜索引擎,则为用户提供了一张一清二楚的地图,为用户随时查询提供方便。
文本搜索引擎的工作原理以最简单的语言描述为:
1.搜集信息:通过一个称为网络爬虫的程序来追踪互联网上每一个网页的超链接。
2.处理信息:处理信息是搜索引擎系统比较关键的一部分,它涉及到信息的提取以及对提取信息的整理,这称作创建索引。信息提取的质量直接关系到查询结果。
3.接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。
本系统以上述工作原理设计开发实现了以下三个模块:
(1)信息搜集子模块。
(2)预处理子模块。
(3)查询服务子模块。
完成文本搜索引擎的信息搜集、预处理和查询服务功能,获得返回的查询的结果。
关键字:搜索引擎;Java;Lucene
Development of Java-based text search engine
Abstract
Text search engine refers to automatically download information from the Internet , after a certain order, available to the user query system.
Information on the Internet big and wide , and no rules to follow , like so many stars in the sky all the information on the links between pages are interleaved between these stars trajectory.
Text search engine works in the most simple language described as:
1.gathering information : Through a program called web crawlers to track every page hyperlinks on the Internet .
2.Information processing: processing of information is more critical part of the search engine system, which involves the extraction of information and organize information extraction, which is called to create the index. Quality of information extracted directly related to the query results.
3.accepts queries : user issues a query to a search engine , the search engine query and return the user to receive information .
The system design and development of the above works to achieve the following three modules:
( 1 ) Information gathering sub-module .
( 2 ) pre-processing sub-modules.
( 3 ) inquiry service module.
Completed text search engine information gathering, pre-processing and query services, access to results of the query are returned.
Keywords: search engine ; Java; Lucene
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1 系统开发的背景及意义 1
1.2 课题简介 1
第二章 技术简介 2
2.1 系统开发所使用的技术和工具 2
2.2 JAVA技术介绍 2
2.3 JSP技术介绍 2
2.4 Tomcat6.0技术介绍 3
2.5 Lucene技术介绍 3
第三章 需求分析 4
3.1 编写目的 4
3.2 可行性分析 4
3.2.1 技术可行性 4
3.2.2 经济可行性 4
3.2.3操作可行性 4
3.2.4开发环境 5
3.2.5 运行环境设定 5
3.3 用例模型 6
第四章 总体设计 8
4.1 系统设计的目标 8
4.2 系统功能模块的设计 8
4.2.1 系统工作流程 8
4.2.2 信息搜集子模块 9
4.2.3 预处理子模块 14
4.2.4 查询服务子模块 19
4.3 系统功能架构 22
第五章 详细设计与系统实现 23
5.1 信息搜集子系统的实现 23
5.1.1 网络爬虫的实现 23
5.1.2 数据库的实现 25
5.2 预处理子系统的实现 25
5.2.1 关键信息的提取 25
5.2.2 分词、建立索引库 26
5.3 查询服务子系统的实现 29
5.3.1 客户端接口的实现 29
5.3.2 服务器端接口的实现 31
第六章 结论 33
参考文献 34
致谢 35
第一章 绪论
1.1 系统开发的背景及意义
在互联网蓬勃发展的今天,互联网上的信息更是浩如烟海。人们在享受互联网带来的便利的同时,却面临着一个如何在如此海量的内容中准确、快捷地找到自己所需要的信息的问题,由此互联网搜索引擎应运而生。
在对搜索引擎的原理、组成、数据结构和工作流程等方面深入研究的基础上,对搜索引擎的三个核心部分即网络蜘蛛、网页索引和搜索的分析及实现过程进行阐述。网络蜘蛛部分采用了基于递归和归档机制的Heritrix网络爬虫;网页索引部分利用开源的Lucene引擎架构设计并实现了一个可复用的、可扩展的索引建立与管理子系统;搜索部分在Ajax技术支持上,设计并实现一个灵活、简洁的用户接口。本系统具有抓取网页、建立和管理索引、建立日志以及搜索信息等功能,具备一定的应用前景。
1.2 课题简介
开发一个轻量级的文本搜索引擎,为用户提供只要向搜索框中输入想要查询信息的词或短语,在几秒钟内用户就能得到经整理排序后的与提交的词或短语相关的信息服务。
文本搜索引擎包括以下三个子模块:
请支付后下载全文,论文总字数:24852字