商品信息爬虫模型及其可行性分析开题报告
2022-01-05 20:36:16
全文总字数:5542字
1. 研究目的与意义及国内外研究现状
当前,网络爬虫技术被广泛用于搜索引擎,能够满足人们对评价信息的抓取,但是由于人们对提供的信息要求越来越高,越来越细,信息的获取变得越来越力不从心,主题相关性差。
本次选题的目的就是满足人们日益增长的个性化商品信息分析需求。
国内外研究现状
随着互联网技术的一步步发展,网络逐渐成为了人们获取信息的主要途径。2. 研究的基本内容
一、网络爬虫模型
1、网络爬虫的模型建立
2、网页商品信息的爬取
3. 实施方案、进度安排及预期效果
实施方案:建立网络爬虫模型,利用url以及http协议,读取商品的xml文件,从而一步步获得消费者的商品评价。通过svm和lr分类器训练,从精度,召回率和f1值三个方面对收集到的数据集信息进行分析,验证所建立模型对商品评价信息positive-negative分类的有效性验证。
进度安排:
第一阶段:2018.2.28—3.9,查阅大量文献资料,确定论文题目;第二阶段:2018.3.10—3.31,根据论文题目进行调研,按照指导教师所下任务书的具体要求,积极做好论文前期准备工作;第三阶段:2018.4.1—4.15,完成选题报告。通过选题报告,对论文的框架和内容有一个大体的构思,并在指导老师的帮助下,整理相关资料、补学空白知识点,做好撰写论文的前期准备工作;第四阶段:2018.4.16—5.5,在导师的指导下,进一步分析整理资料,完成论文初稿。在实际工作中验证相关论点,以完善论文的实际可操作性,并希望论文的方法和观点能在实际工作中得到应用和升华;第五阶段:2018.5.6—5.18,与导师进行讨论,总结充实研究内容,并根据论点在实际工作中的应用对论文进一步修改;第六阶段:2018.5.18—2009.6.1,论文评审。在指导老师的帮助下充分做好答辩准备,积极准备答辩材料;第七阶段:2018.6.2答辩。
4. 参考文献
[1] 谢柏楠. 基于全文检索的快速查询系统研究与实现[d]. 华南理工大学,2012.
[2] 刘世栋,于飞. 让搜索蜘蛛恋上你的网站[j]. 中国现代教育装备,2013(24):23-24.
[3] leonard a. bots are hot! [j].