基于Lucene的旅游资讯搜索引擎的设计与实现文献综述
2020-04-15 09:36:01
1.1 题目
基于Lucene的旅游资讯搜索引擎的设计与实现
1.2 背景及意义
1.2.1 课题背景
搜索引擎(Search Engine,SE)是通过采用一定的策略在原先自己所指定的搜索空加上收集与查找相关信息,之后再通过特定的技术对于信息进行处理加工来为用户提供信息查询服务[1]。自网络不断的发展,如何便捷地搜寻用户所要获取的内容已变得尤为重要,搜索引擎作为大幅度优化这一操作的工具便能够更加省时省力的实现信息的深度获取与优化。
Lucene作为开源的使用Java语言编写的全文搜索引擎开发包,是由DougCutting这一位全文搜索和检索的专家所开发出来的,Lucene作为开源软件与生俱来的优点:API简单易用且功能强大、架构清晰,易于扩展和学习、强大的索引文件以及可运用与多种文档和多种不同语言等优点[2]。
垂直搜索引擎也称为主题搜索引擎或者专题搜索引擎,他是对于网页库中某类信息的整合搜索,即只是关注于某一领域上的信息,通过对于这些信息进行存储以及相应的处理之后,从而实现了在搜索引擎的基础之上再度加深了类别信息提取、整合以及再处理的功能[3]。
1.2.2 课题意义
互联网信息随着新千年以来IT技术不断发展下所带来的爆炸式增长,检索信息的工作变得日益复杂,目前,我们国内所流行的搜索引擎门户依旧是百度而国外是谷歌,但是这样的全文搜索引擎所需要的维护成本过大以及开发者自己若所想要实现的目标仅仅只是某一特定领域的信息收集与索引之时,全文搜索引擎便不再适用。并且随着搜索引擎的日益发展,搜索引擎自身的性能更加优异也对于信息检索上有着事半功倍的巨大作用[14]。
垂直搜索引擎和普通的网页搜索引擎的最大区别在于垂直搜索引擎对于网页信息进行了结构化信息抽取,将网页里面的非结构化数据抽取而成为了特定的结构化数据,从而实现以结构化数据为最小的索引单位,并由此存储于数据库中进行管理,实现对于某一特定领域信息的获取与管理,能够更加高效地实现特定信息的检索获取与管理[4]。正如相关性是搜索引擎评价的主旋律那样,相关性体现了信息本身的质量如何,将信息检索的查全率做到最好已然不再重要,这样反而还会造成信息检索时的信息冗余,查准率变得尤为重要与高效[5]。因此通过使用高效的开源软件Lucene以及指向性强的垂直搜索引擎构架对于减少查询信息冗余与提高信息本身的准确率具有得天独厚的优越性,在当今这个信息化时代的背景下,谁能够更加高效地取得相应的信息谁就能够在信息化占据着更为有利的位置。