基于SPARK的网络数据采集与处理系统设计与实现开题报告

2021-12-16 22:58:05

全文总字数：1950字

1. 研究目的与意义及国内外研究现状

课题的目的：通过在树莓派机器上搭建spark集群，编写网络爬虫程序，抓取电商网站上的商品评论，在集群上运用数据挖掘算法分析出该评论是好评或者差评，帮助消费者更详细准确地了解商品的服务以及质量，帮助消费者做出根据自身需要做出合适的购物选择。

研究意义：随着电子商务的高速发展，评论数据也日益增加，人工情感分析已经无法满足要求。运用计算机来处理这些海量的评论数据，并根据相关的需求对相关要素进行简要分析，实现海量评论数据的抓取和分析，成为当今热门研究课题。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

（1）选择在树莓派上搭建spark做文本情感分析的优势及意义；

（2）网络爬虫的编写，高效地抓取电子商务网站相关商品的评论数据；

（3）建立情感词库，为每个词定义权重，以及该情感词汇所属的情感类别；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

（1）实行方案：在树莓派机器上搭建spark集群，编写网路爬虫对电子商务网站上的买家评论进行抓取，运用相关机器学习算法分析出好评与差评。

（2）进度计划：

第一阶段准备阶段：2016年1月前，开始准备论文，查阅资料，了解相关编程语言以及算法等技术，撰写绪论部分。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

1.夏俊鸾/刘旭辉/邵赛赛/程浩/史鸣飞.《spark大数据处理技术》电子工业出版社 2014

2.张安站.《spark技术内幕》机械工业出版社 2015

3.刘贤友. 面向电子商务的评论文本情感分析研究. 中国科学技术大学,2013

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付