舆情识别监测研究毕业论文
2021-07-12 22:20:05
摘 要
本文通过对网络舆情信息的挖掘和分析,对网络舆情的监测与预警问题进行研究。
首先运用ROST软件对文本文字进行了剔除,得到文本中的关键词。随后对获取的关键词建立空间向量模型,运用K-means聚类将关键词聚为9类,再以每个文本中评论数和投票数的线性加权作为该文本的热度综合模型,求出每个分类的总的热度,对热度进行标准化处理之后得到了各热点的排序如表2.4所示,并得到前3个热点话题分别为:慰问金问题;TPA夺冠;钓鱼台争端。
接着本文以事件阅览数、投票数、评论数、以及该事件的传播速度作为效应性指标,以对社会造成的影响作为成本性评价指标,建立基于TOPSIS的网络舆情监测模型,基于收集到的资料,通过计算得到各个热点话题的综合评价总和评分,并对其进行排序(排序结果如表3.2所示),从而选出急需监测的话题。
基于热度模型,本文首先收集了天津爆炸事件的相关数据,解出不同时段该事件的热度。基于热度的求解结果,本文首先对快速上升阶段运用灰色预测模型,预测得到后6天的热度变化和相应的预测误差如表4.5,结果表明预测效果较好。随后,本文运用马尔科夫模型基于不同时刻该事件的热度构建了热度的状态转移矩阵,预测获得热度的趋势变化区间,通过对比两种预测结果。
研究结果表明:根据预测获得的数据,结合建立的网络舆情预警标准,能够有效的为相关部门及时化解舆情危机提供参考。
本文的特色:对模型的优缺点进行了评价,并对模型的改进提供了方向。
关键词:K-means聚类;倾向性分析模型;TOPSIS;灰色预测
Abstract
This article carries on the excavation and the analysis to the network public sentiment informatio, and it researches on monitoring and early warning of network public opinion.
At first, the text is removed by Rost software and gets the key words. Then the space vector model is established for the key words. The key words are clustered into 9 kinds by using K-means clustering. The linear weights sum of the number of comments and the number of votes in each text that are used as the model of the heat integration of the text, and found the total heat of each classification.After the heat was normalized,the hot spots is sorted as shown in Table 2.4. The result gets the first three topics:"Consolation money problems","TPA win","Diaoyutai dispute".
Then the number of events, the number of votes, the number of comments, and the transmission speed of the event as an effect index in this paper, the impact of the community as a cost evaluation index. According to TOPSIS, network public opinion monitoring model is established. The comprehensive evaluation of each hot topic is calculated according to the collected data. The data is sorted and the results are shown in Table 3.2 so as to select the topic needed to monitor.
The paper firstly collects the relevant data of Tianjin explosion according to the heat model to solve the heat of the event at different times, and the paper uses the grey prediction model to get six days of heat change and the corresponding prediction error according to the solution result of heat. The predicted results shows that predicted effect is better. After that this article uses the Markoff model to build the heat of the state transition matrix based on the heat of the event at different times,and predicted the trend of the change in the range of heat, and compares the results of the two kinds of prediction.
The results shows that the model can effectively provide reference for the relevant departments in time to resolve the crisis of public opinion according to the data obtained from the prediction and the establishment of the network public opinion early warning standards.
the characteristics of this paper:the advantages and disadvantages of the model is evaluated,and the paper provides a direction in the improvement of the model.
Keywords: k-means clustering;tendency analysis model;TOPSIS;grey prediction
目 录
摘 要 I
Abstract II
第1章 绪论 1
1.1研究的目的和意义 1
1.2国内外研究现状 1
1.3 研究的基本内容、目标 2
1.3.1研究内容 2
1.3.2预期目标 2
1.4 研究的基本结构 2
第2章 基于K均值聚类算法的热点话题发现 4
2.1 数据的预处理 4
2.2 基于k均值聚类的算法 5
2.3 案例的求解及结果分析 6
第3章 基于TOPSIS的网络舆情监测模型 9
3.1基于TOPSIS的热度评估模型 9
3.2 案例的求解及结果分析 12
第4章 基于灰色预测的网络舆情预测预警模型 15
4.1 网络舆情预测的概述 15
4.2 基于灰色预测的网络舆情预测模型 16
4.2.1 数据的预处理 16
4.2.2基于灰色预测模型的建立与求解 16
4.3 基于马尔科夫预测的网络舆情预测模型 19
4.3.1 基于马尔科夫预测模型的建立与求解 19
4.4网络舆情预警 24
第5章 总结与展望 26
5.1论文总结 26
5.2研究展望 26
参考文献 27
附录A 29
致 谢 44
第1章 绪论
1.1研究的目的和意义
随着互联网的不断发展,越来越多的人在网络上表达自己的观点,其中不乏有一些消极的言论,并且随着信息快速的传播,这些消极的言论迅速被大众消化,会给社会带来严重的危害。作为社会的管理者需要实时的监控网络上的信息,并且从这些信息中找到那些对社会不利的言论,及时的控制住,不让谣言传播,这对社会的发展有十分重要的意义,也为创建和谐的社会主义社会提供必须的条件。因此如何监测网络上的言论,就成为我研究网络舆论的重要内容。
由于网络上的信息量十分的庞大,单靠人力所能监测的内容是十分有限的。因此通过建立一种数学模型来自动的监测网络上的言论、观点、意见就显得尤为重要。不过并不是所有的言论都需要监测,一般来说是对某一时段出现的热点新闻,人们对该热点新闻发表的对这件事件起到推动作用的看法。因为要进行实时舆情监测,需要运用现代的科学技术收集数据,整理数据,最终通过分析建立合适的数学模型。目前最活跃表达言论的地方主要有博客,微博,新闻评论,百度贴吧等等,因此这些也成为主要舆情监测的地方。
1.2国内外研究现状