基于Python的爬虫与影评统计文献综述
2020-05-05 16:47:44
随着互联网的普及和发展,在当今的网络空间电子数据量愈来愈大。
根据中国互联网络信息中心(CNNIC)在京发布第42次《中国互联网络发展状况统计报告》。
截至2018年6月.我国网民规模达8.02亿,互联网普及率为57.7%;2018年上半年新增网民2968万人,较2017年末增长3.8%;我国手机网民规模达7、88亿,网民通过手机接入互联网的比例高达98.3%[1]。
在用户数据信息充足的情况下,为了改进产品等各种目的,对收集数据进行情感分析是非常有必要的。
情感分析是自然语言处理中的重要分支,在相当多的领域有着极大的实用价值,比如购物网站的商品评价,点评网站的评论,社交网络上的留言及发布消息等,对于了解用户对于心理倾向指导产品的更新换代有着极为关键的作用。
通过收集和积累相当数量的用户信息,通过情感分析可以在多个维度挖掘用户的心理情况,从评论中判断的积极或是消极倾向都可为商家和其他用户提供一定的指导。
比如对于各种电影点评网站,可以从电影的评分星级以及各种短评和长评,总结出各种关键词汇。
当收集到一定的数据量时,可以通过合理算法得出综合评断,减少单独评论的影响,为其他用户提供可量化的参考和推荐。
情感分析可以采用基于情感词典的传统方法,也可以采用基于机器学习的方法。
基于情感词典的情感分类虽然实习较为简单,但是存在着相当的缺点,比如精度不高,对于新兴词汇无法识别,词典构建困难等。