商品信息爬虫模型及其可行性分析开题报告

2022-01-05 20:36:16

全文总字数：5542字

1. 研究目的与意义及国内外研究现状

当前，网络爬虫技术被广泛用于搜索引擎，能够满足人们对评价信息的抓取，但是由于人们对提供的信息要求越来越高，越来越细，信息的获取变得越来越力不从心，主题相关性差。

本次选题的目的就是满足人们日益增长的个性化商品信息分析需求。

国内外研究现状

随着互联网技术的一步步发展，网络逐渐成为了人们获取信息的主要途径。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

一、网络爬虫模型

1、网络爬虫的模型建立

2、网页商品信息的爬取

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 实施方案、进度安排及预期效果

实施方案：建立网络爬虫模型，利用url以及http协议，读取商品的xml文件，从而一步步获得消费者的商品评价。通过svm和lr分类器训练，从精度，召回率和f1值三个方面对收集到的数据集信息进行分析，验证所建立模型对商品评价信息positive-negative分类的有效性验证。

进度安排：

第一阶段：2018.2.28—3.9，查阅大量文献资料，确定论文题目；第二阶段：2018.3.10—3.31，根据论文题目进行调研，按照指导教师所下任务书的具体要求，积极做好论文前期准备工作；第三阶段：2018.4.1—4.15，完成选题报告。通过选题报告，对论文的框架和内容有一个大体的构思，并在指导老师的帮助下，整理相关资料、补学空白知识点，做好撰写论文的前期准备工作；第四阶段：2018.4.16—5.5，在导师的指导下，进一步分析整理资料，完成论文初稿。在实际工作中验证相关论点，以完善论文的实际可操作性，并希望论文的方法和观点能在实际工作中得到应用和升华；第五阶段：2018.5.6—5.18，与导师进行讨论，总结充实研究内容，并根据论点在实际工作中的应用对论文进一步修改；第六阶段：2018.5.18—2009.6.1，论文评审。在指导老师的帮助下充分做好答辩准备，积极准备答辩材料；第七阶段：2018.6.2答辩。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

[1] 谢柏楠. 基于全文检索的快速查询系统研究与实现[d]. 华南理工大学，2012.

[2] 刘世栋，于飞. 让搜索蜘蛛恋上你的网站[j]. 中国现代教育装备，2013(24):23-24.

[3] leonard a. bots are hot! [j].

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码