基于Java的主题搜索引擎设计与实现
2023-03-07 08:52:22
论文总字数:23590字
摘 要
Abstract 4
第一章 绪论 5
1.1 课题背景 5
1.2系统目标 5
第二章 搜索引擎的基本架构 6
2.1工作原理及组成 6
2.2搜索引擎组成结构 6
2.2.1网络爬虫 6
2.2.2索引和搜索 7
2.2.3网页服务器 7
2.2.4搜索引擎性能 7
第三章 网络蜘蛛概述 8
3.1网络蜘蛛简介及工作原理 8
3.2网络蜘蛛的基本结构 8
3.3网络蜘蛛的分析 8
第四章 Lucene 11
4.1简介 11
4.2 Lucene实现全文检索的机制 11
4.3词语分词切割机制 12
4.4服务端 12
4 .5网络蜘蛛和Lucene 16
第五章 Tomcat服务器简介 27
5.1tomcat简介 27
5.2服务器部署 27
第六章 数据库设计 28
6.1概述 28
6.2数据库逻辑结构设计 28
第七章 客户端设计 29
7.1HTML解析 29
7.2网页排序和评级 29
7.3前端界面设计 30
7.3.1网页的前端界面如下图所示 30
7.3.2最终爬取结果 30
7.3.3搜索结果如下图所示 31
7.4搜索引擎策略分析 31
7.5搜索引擎导向词 31
结束语 32
致谢 32
参考文献 32
摘要
互联网上的东西可以说是相当的富足,如此巨量的资源可供人们的选择是非常多的,然而在人们使用的过程中却遇到了一个难以解决的问题,我们怎么样才可以在这么多的资源信息中寻找找到自己所需要的呢?所以,在这个时候就需要一个搜索引擎来解决用户所面临的问题,这也不失为一个好方法。此篇文章详细的介绍了基于互联网的搜索引擎的基本架构,接着从网络蜘蛛、索引的引擎、基于网页的服务器等几个方面来说明此搜索引擎的功能。为了人们可以更加的深入的了解这种技术,我便自己设计了这样一个搜索引擎-----基于Java的搜索引擎。
这个搜索引擎它的在工作原理大致如下:首先是根据网络页面中的超链接,对超链接中的信息进行解析和检索,在这个时候,搜索引擎将自己所检索到的信息建立相应的索引,并且按照对应的倒排索引的文件的格式存入到本机的数据库里面。在这之后,网页服务器就会接受使用者的检索要求从本地的数据库中检索出与用户查询所相对应的相关信息,最终将检索到的结果返回给客户。
关键词:网络爬虫;搜索引擎;查询
Abstract
There are a lot of rich resources on the internet people have a large number of choices to select resources what they need. However, it is rather difficult for many people how to search for effective Information. So, in this time, it is necessary for people to have a good engine to solve problems they faced. this is a good way. this article in detail introduce the architecture of the search engine based on internet, and then illustrates the capabilities of this search engine from several aspects: web spiders, index engine, web servers, and so on. I have designed such a search engine ----- Java-based search engine in order to people can learn more this technology deeply;
This search engine it is from the specified web interface in accordance with its hyperlink to analyze, search, and search the information through the index, according to the inverted file format channel database, and then the web server receive the user"s query Request, from the database to search out the matching information and then return to the users.
Keywords: internet spider; search engine; query
第一章 绪论
1.1 课题背景
伴随着社会的不断快速的发展到今天,越来越多的人们开始接触因特网这一新鲜的事物,通过互联网他们可以了解世界并且可以随心所欲的搜索自己感兴趣的东西。而且,在互联网飞速发展的当代,互联网上的信息更是浩瀚如海。人们可以受益于互联网所带来的便捷的服务,然而在这个过程中也自然而然的衍生出一个比较棘手的问题,那就是我们怎么样在巨量的资源内部才可以讯速而又精确的查找到自己所需要的东西呢。就在这个时候基于Java的搜索引擎就横空出世了,它符合人们的快速增长的搜索需求。
搜索引擎的发展方向是多种多样的。从关于各式各样类型的使用者要搜寻类似的实质性资源来说一般会得到有细微差别的更适合于使用者的检索成果。这就是人们常说的DIY个性化定制的选择。智能化检索指的是我们的搜索引擎具备一定程度上的自我研习的能力,它非常适合于自适应客户的搜寻要求,并且可以根据具体的实际情况对使用者来进行相应的分类汇总以便于可以为搜索引擎提出不同的解决方案。而目前最具代表性的国内外搜索引擎主要有,谷歌公司、雅虎公司、百度公司、微软的必应搜索等等。
1.2系统目标
我们设计基于Java的搜索引擎的系统的目标就是在于有望可以能够为用户提供更加简单而又方便的服务,这样的话在用户使用的过程中我们就可以为使用者提供而中各种各样的解决方案 。搜索引擎,顾名思义,它就是一个查询系统,对互联网上的各种资源进行归纳与分类整理,并且将这些信息存储在数据库里面。一般来说,都包含三大部分,信息的采集、信息的归纳与分类、用户的查询请求。
对于搜索引擎来讲,它只给我们显示了一个相当简单的主界面,网页界面中只包含两件东西,一个就是按钮图标,另外一个就是文本框了。在这一步之后,客户端会输入由用户上传的内容,文本中列出有关搜索引擎检索到的信息,最后一步就是是将搜索引擎与用户一起收集搜索并反馈给用户。
一般来说,搜索引擎涉及的技术有很多,本文是做一个简单的介绍,其中涉及的技术和相关知识点有:数字图书馆、操作系统、数据库系统架构、讯息的检索和提取、AI人工智能、计算机网络技术等,具有极强的挑战性和相当的复杂性。
剩余内容已隐藏,请支付后下载全文,论文总字数:23590字