电商评论信息采集开题报告
2022-01-09 22:42:47
全文总字数:2789字
1. 研究目的与意义及国内外研究现状
随着科技的进步与发展,大数据俨然已经成为了当下社会的热门词汇。究竟何为大数据?大数据就是指那些超过传统数据库系统处理能力的数据,数据量通常在10tb以上。通常人们说的“大数据”指的是一种技术,就是基于现有的数据资料,结合外部市场环境的各类数据对其进行深度挖掘和未来数据趋势的预测,将看似枯燥没有意义的数据转变为企业的珍贵资产的一种新行为。数据量大是其最主要的特征,据统计,从2012年到2020年。全球数据总量年增长率将保持在50%左右,截至2020年,全球数据总量将会达到40zb。同样,大数据在医疗,城市建设,金融,电商,科学等各个领域都有所涉及。由此可见,大数据在如今以及不久的将来都会是一个值得讨论和研究的方向。
在这里攫取电商这个角度来进行大数据的分析,在每年的双十一活动中,每秒会产生将近5万笔的成交量,一天的成交额达上千亿,如此大的成交量也必将产生巨大数量的商品评论。在京东官网上选取其中一件商品,采集其中的用户评论,分析得到其中的有效信息。通过整合这些信息来判断和预测消费者的消费心理,掌握消费者的动向,商家对此可以了解自身的不足之处与长处,取其精华,去其糟粕,及时做出调整改变等相应对策,同时总结经验,放大自身产品的优点,提高利润。用户了解这些信息后可以得到该商品较全面的评价,更好地做出消费决策,避免消费冲动,更好地提高消费质量。
国内外研究现状
对于大数据的复杂程度,kleinberg等人通过分散方法等随即图算法大规模社会网络中的小世界网络规律,分析解释六度分割等现象。而基于大数据的计算研究,现主要集中在参数估计,优化算法等方面。美国加州大学伯克利分校jordan等人开展了大数据的理论基础研究,目前已经相对成熟的算法包含分布式优化算法和大数据非参数估计方法等。
2. 研究的基本内容
本课题研究的是利用python爬虫获取某电商平台某一产品的评论信息,主要研究以下几个方面:
1.大数据的起源。研究大数据的来源。
2.数据的采集。数据的采集是大数据分析过程的基础。
3. 实施方案、进度安排及预期效果
实施方案:
1.采取的开发架构:
爬虫软件:pycharm
4. 参考文献
[1]官思发,孟玺,李宗洁,刘扬.大数据分析研究现状、问题与对策[j].情报杂志,2015,34(05):98-104.
[2]郭平,王可,罗阿理,薛明志.大数据分析中的计算智能研究现状与展望[j].软件学报,2015,26(11):3010-3025.
[3]曾忠禄.大数据分析:方向、方法与工具[j].情报理论与实践,2017,40(01):1-5.