基于SPARK的网络数据采集与处理系统设计与实现开题报告
2021-12-16 22:58:05
全文总字数:1950字
1. 研究目的与意义及国内外研究现状
课题的目的:通过在树莓派机器上搭建spark集群,编写网络爬虫程序,抓取电商网站上的商品评论,在集群上运用数据挖掘算法分析出该评论是好评或者差评,帮助消费者更详细准确地了解商品的服务以及质量,帮助消费者做出根据自身需要做出合适的购物选择。
研究意义:随着电子商务的高速发展,评论数据也日益增加,人工情感分析已经无法满足要求。运用计算机来处理这些海量的评论数据,并根据相关的需求对相关要素进行简要分析,实现海量评论数据的抓取和分析,成为当今热门研究课题。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容
(1)选择在树莓派上搭建spark做文本情感分析的优势及意义;
(2)网络爬虫的编写,高效地抓取电子商务网站相关商品的评论数据;
(3)建立情感词库,为每个词定义权重,以及该情感词汇所属的情感类别;
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 实施方案、进度安排及预期效果
(1)实行方案:在树莓派机器上搭建spark集群,编写网路爬虫对电子商务网站上的买家评论进行抓取,运用相关机器学习算法分析出好评与差评。
(2)进度计划:
第一阶段准备阶段:2016年1月前,开始准备论文,查阅资料,了解相关编程语言以及算法等技术,撰写绪论部分。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 参考文献
1.夏俊鸾/刘旭辉/邵赛赛/程浩/史鸣飞.《spark大数据处理技术》电子工业出版社 2014
2.张安站.《spark技术内幕》机械工业出版社 2015
3.刘贤友. 面向电子商务的评论文本情感分析研究. 中国科学技术大学,2013
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付