基于情感分析的在线评论挖掘研究开题报告
2020-04-21 16:09:41
1. 研究目的与意义(文献综述)
1.1 研究背景
近年来, 在“ 大数据" (bigdata)时代的背景下,随着电子商务行业的蓬勃发展, 网络购物平台、手机app 应用市场平台等不仅为用户提供了大量商品信息,同时还允许用户参与商品评论。它不仅为商家提供了一个信息的展示平台以发布新产品的规格数据,也为消费者提供了一个产品使用体验交流以及质量评价的平台。因此很多网络用户在购买或使用某类产品前,往往会选择先上网浏览一些该产品的相关信息, 尤其是其他用户的使用体验,多方比较产品的性能,从而使自己的消费和选择更趋理性化。分析这些评论信息,蕴含着巨大的商业价值和社会价值,具有很大的现实意义。
然而,这些主观性评论文本每天以指数级的速度增长, 仅靠人工方式难以进行收集、处理和分析。因此采用计算机技术来自动地分析这些主观性文本表达的情感成为目前数据挖掘(data mining)研究的一个热点而这个热点的研究方向就是文本情感分析(sentimentanalysis)。
2. 研究的基本内容与方案
2.1.1设计并维护一个ip代理池
本项目将采用自写网络爬虫脚本以获取大量电商评论数据,考虑到电商的反爬策略,在项目伊始设计并维护一个ip代理池。在代理池基础上采用分布式多线程爬虫,为文本分析工作奠下坚实的数据基础。
2.1.2业务理解和数据准备
3. 研究计划与安排
第1~3周:确认选题,查阅收集资料,完成任务书及开题报告:
第4~6周:需求分析,确定功能模块,建立模型;
第7~9周:系统设计,包括数据库设计和模块设计;
4. 参考文献(12篇以上)
[1]kaplan n. the norms of citation behavior: prolegomena to the footnote [j].american documentation, 1965, 16 ( 3) : 179-184.
[2]small h. co-citation in the scientific literature: a new measure of therelationship between two documents[j]. journal of american society forinformation science.1973(24): 265-269.
[3]garfield, e. can citation indexing be automated? [j]. essays of an informationscientist. 1962,13(1): 84–90.