豆瓣影视数据可视化分析文献综述
2020-04-15 17:09:25
随着人们生活水平的提高,温饱问题的解决,人们开始对于文化娱乐生活有了更多的要求,在众多文化娱乐产品和服务中,电影以其娱乐性与文化性共存、丰富性和技术性兼备的特点为广大人民群众所青睐。尤其是近年来,无论是暑假全民狂欢的战狼,还是号称科幻崛起的流浪地球,无论是进口影片的热映,还是经典的重新审视,无论是进入影院支持,还是在视频网站观看,电影都逐渐成为人们生活密切相关的话题。然而随着互联网时代的到来和点评网站的发展,人们不再仅仅满足于观看,更是开拓出了分类与排名,讨论与分享等更多选择,其中最令人瞩目便是电影评分制度的诞生。
1990年IMDb (InternetMovie Database) 互联网电影资料库的建立, 标志着电影评分在互联网上的首次启动, 1997年美国著名的电子商务网站eBuy首次建立了信用评分机制,评分”以一种信用担保的方式出现;1998年美国著名影评网站“烂番茄”在加州大学伯克利分校建立。在互联网的推动下,电影评分已经成为电影行业发展中必要的组成部分。受美国影响,中国也建立了以豆瓣网、猫眼、时光网、知乎、电影天堂等为代表的电影评分网站。电影评分诞生于互联网平台,从最初的电影资料分享、个人喜好逐渐被赋予更丰富的含义和用途。现在,电影评分更是已经超越原始评分概念,在互联网的作用下它成为分析受众观影喜好的重要窗口。
网络评分虽然是近二十年才逐渐发展起来的,但国内外已经有很多学者对其进行了研究,但这其中大部分是关于电影推荐算法和的评分影响的研究。在数据可视化方面,李晋曾经采用定制网络爬虫的方式抓取了格瓦拉电影网2011年至2016年的各类电影评分信息,在从受欢迎影片类型、流派、国别,演员和导演影响力等多个维度分析国内上映影片的市场格局,从受众的视角分析影片网络评分的时间维度、国别维度、类别维度的分布,提出电影人包括导演和演员在观众中的美誉度的评价指标。
许冰晗等人在Movielens的基础上,用可视化与可视分析的方法分析电影数据, 设计了一系列相互关联的可视化视图, 从多个时间尺度角度分析电影流派的时间演变, 通过增长率曲线图研究电影数量和经济的相关关系, 并设计饼图集来发现高评分电影在时间、流派上的规律。
在国外研究方面,也有不少基于Movielens和IMDB电影数据的可视化研究。Herr等人对428 440部电影做一个简单的统计, 并使用折线图来可视化电影的发展。也有不少研究者用网络图的方法来分析大量电影演员之间的关系。Nemeth等人推荐符合用户兴趣的电影, 针对一个电影设计它的特征地图。Lee等人研究的是观影人数和评论, 并用折线图来分析观众和评论之间的相关关系。{title}
2. 研究的基本内容与方案
{title}本论文的研究目标是通过对相当数量电影评分进行数据分析,然后呈现一系列可视化视图,从时间、地域、主题等多个方面反映受众的观影爱好;将评分与票房结合分析讨论两者的关系类型;根绝分析结果对电影制作者和评分机制提出建议。
研究内容
1) 电影评分的总体分析,包括分数分布与均值等。
2) 电影评分在地域上的差异并探析原因。
3) 电影评分在年代上的差异并分析。