舆情时间序列分析及可视化文献综述
2020-04-15 09:36:13
1.1 目的及意义
随着信息科技的突飞猛进,新闻评论、论坛、博客和微信等网络新媒体共同构筑成多元化的表达平台,普通网民得以借助网络新媒体制造新闻话题、表达个人观点、参与公共事务。舆情分析也因此作为作为全新的社会议题引起党政机关和企业重视,成为研究和实践领域的热点。时间序列分析是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。它包含一般统计分析(如自相关分析,谱分析等),统计模型的建立与推断,以及关于时间序列的最优预测、控制与滤波等内容。而舆情的时间序列分析更是将舆情与时间趋势结合起来,能够更加精确直观的分析舆情。
舆情的时间序列分析及可视化主要涉及网络舆情主题的情感认知倾向和趋势变化。批量处理评论信息进行情感分析,并且在时间轴上可视化呈现,通过时间序列化分析可以从大量文本中得出情感随着时间发生的变化,不用花费大量时间去读每一条评论就可以得出总体的情感趋势。
1.2 国外研究现状
网络舆情是极具现阶段中国政治与社会特色的研究领域。国外网络媒体在反映社情民意方面的作用不及我国,研究相对较少,他们较多的关注网民进行的网络内容创作、编辑与筛选,使网民能够与编辑、记者意见交流,对网络新闻制造和传播产生影响。国外相关研究主要集中在网络舆论监测分析和传播演化两个方面。而时间序列分析起源于本世纪二十年代,最早是为了市场预测,近年来,在时间序列分析理论中发展最为迅速的当属单位根理论。这一理论主要研究随机漫步过程统计量的非对称性质。单位根问题已经引起了越来越多计量经济学家和统计学家的关注。它不但为决定ARIMA模型查分的阶提供了正式的检验方法,也为某些统计量的检验开辟了新的领域。Tsay 和Tiao将单位根检验扩展到多元情况,这就是所谓的协整检验。
1.3国内研究现状
而对于国内的网络舆情分析与研究,根据中国知网的文献检索,国内网络舆情研究始于2003年,2004年中共十六届四中全会公报《关于加强党的执政能力建设的决定》提出“高度重视互联网等新型传媒对社会舆论的影响,建立社会舆情汇集和分析机制”的要求后,网络舆情研究与实践进入发展的快车道。现阶段网络舆情研究重点集中在4个方面:第一,网络热点舆情事件的特征与形态研究。第二,网络舆情内容的多层面研究。第三,网络舆情形成、传播和演化过程研究。第四,网络舆情监测预警和舆情管理研究。本阶段的网络舆情,研究内容更加全面,完善了网络舆情的研究框架,研究方法日趋规范与合理,数理统计、社会网络分析、内容分析、案例研究、扎根理论、系统动力学方法和仿真方法等都有使用,实现了现象描述与经验总结的结合、定性分析与定量研究的结合、理论假设与实际验证的结合。而社会物理学、计算机科学的一些理论、技术与方法也逐步被引入,但这些研究方法与现实需要的耦合问题仍然存在。在我国,时序研究和应用起步较晚,第一本专著是《时间序列的分析和应用》,此后获得较为广泛的发展。我国许多高校和科研单位开展了时序理论特别是时序应用方面的研究工作,不少成果已实际应用,取得了明显的社会效益和经济效益。
{title}2. 研究的基本内容与方案
{title}本毕业设计主要研究方向是舆情时间序列分析及可视化,主题是针对微博上关于云南九寨沟地震的舆情分析和使用相关时间序列算法对情感趋势进行分析,并得出相关的结论。最后在有余力的情况下制作可视化界面显示分析的结果。
本毕业设计的环境是在python运行环境Anaconda上进行设计。主要设计内容具体为如下:
1. 获取微博上对于九寨沟地震的评论,要求包含时间、id、url、评论内容,作者、转发数。