旅游信息检索系统设计与实现开题报告
2020-04-20 13:00:42
1. 研究目的与意义(文献综述)
1.1. 课题背景
随着生活水平的逐渐提高,旅游已成为很多人的休闲活动之一,且在当今信息技术快速发展的趋势下,用户在制定旅游计划时,一般会通过检索平台去查询相关的旅游信息。但同时互联网中存储的旅游信息量也日渐庞大,用户通过检索平台输入检索项后,总是希望与检索项意图最贴合且最可靠的旅游信息呈现于搜索结果的最顶端。但现有的搜索引擎大多是基于简单的关键词匹配,不能真正理解用户的检索意图,这就意味着如何将最贴合用户检索意图且最可靠的信息源作为搜索结果呈现给用户,让用户真正享受智慧旅游,是检索平台迫切要解决的问题之一。
1.2. 国内外研究现状
1.2.1 信息检索模型的研究
检索模型的本质是对用户需求和文档的相关性建模,主要包括对查询和文档的表示技术及相关性排序技术。早期的布尔模型、向量空间模型、概率模型及统计语言建模检索模型仍然在被人们不断改进和应用。此外,也陆续出现了几种新的模型。主要的改进思路在两个方面,一方面是如何将特征项之间的关系考虑在内,来突破传统模型中的特征项独立 (term independence)假设;另一方面是如何突破传统的词项频率 tf(term frequencey)、逆文档频率 idf(inverse documentfrequency)及文档长度这三个因素来改进检索模型。传统的信息检索模型都只包含了三个因素:词项频率、逆文档频率及文档长度,更多因素的融入一直是人们的研究目标。有人提出将特征项之间的邻近关系(proximity)也引入到信息检索模型中,并进行了初步尝试。另一部分人提出:一个好的信息检索模型必须满足一些基本约束条件,并证明现有的信息检索模型条件满足(和参数有关)或不完全满足上述基本条件,在传统模型上和参数变化相关的实验结果印证了其理论分析。在此基础上,他们提出了构造新的检索模型的框架和方法,新提出的模型具有一定的优势。
2. 研究的基本内容与方案
2.1 基本内容与目标
面向旅游信息的相关网站设计一个小型的搜索引擎,考虑网站之间的相互引用以及用户点击,实现关键词搜索功能,并按照相关度排序将结果以链接的形式显示在网页中。
2.2 技术方案及措施
大体上分为四个步骤:
1)运用网络爬虫获取相关网页并进行解析。从一系列种子网页(url)开始,使用这些网页中的链接去获取其他页面,将获取到的页面中的链接提取出来,再去访问对应的页面,整个过程按照一定的规则不断重复,直至获取到足够的页面。对获取到的页面进行解析,如去掉固定的html标签,将页面内容分为标题域、正文域、url等等。
3. 研究计划与安排
1. 2018/1/14—2018/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
2. 2018/3/1—2018/4/30:系统架构、程序设计与开发、系统测试与完善;
3. 2018/5/1—2018/5/25:撰写及修改毕业论文;
4. 参考文献(12篇以上)
[1] [美] haralambosmarmanis(哈若拉玛·玛若曼尼斯), [美] dmitry babenko(德米特里·巴宾寇) 著; 阿稳,陈钢 译. 智能web算法[m]. 电子工业出版社, 2011.7
[2] bing liu 著;俞勇等译. web数据挖掘[m]. 清华大学出版社, 2009.
[3] [美] 曼宁, [美] 拉哈万, [德] 舒策 著; 王斌 译. 信息检索导论[m]. 人民邮电出版社, 2010.9.