新浪微博舆情分析的聚类研究
2023-03-25 18:04:16
论文总字数:43764字
摘 要
新浪微博是一款为大众提供娱乐休闲服务的信息分享和交流的平台。不论是名企业或名个人,还是无名的草根,都可以畅所欲言,在一起交流。这也使得微博的使用越来越盛行,微博信息的发送量异常巨大。面对海量的数据消息,我们无法通过仅仅人工的方式对互联网进行全面监控。因此,本文提出建立一个网络舆情自动分析系统,将有利于社会管理者们及时了解网络舆情的状态和趋势,因此可以对发现的热点舆情及时进行干预,引导疏通民众情绪和心理,避免矛盾的进一步恶化而造成更大的社会损失。
然而,目前微博网站一般根据评论数和转发数统计出热门话题,该方式准确率比较低,迫切需要一种更适合微博文本处理的聚类算法,识别出微博用户关注的热门话题,得到舆情热点。本文选择典型的基于划分的聚类算法——K-MEANS算法进行文本聚类。,该算法最大的优点是操作简单、处理高效,但是算法在初始聚类中心的选择以及K值的确定比较困难,一旦选取不当,容易使得聚类结果陷入局部最优,从而影响聚类结果的准确性。本文针对聚类结果对初始聚类中心敏感性的问题,对初始聚类中心的选取进行改进,并用改进的K-means方法与传统的K-means方法分别对微博文本进行聚类,最后评价聚类结果,进一步验证改进的K-means聚类的有效性。
关键字: 新浪微博;舆情分析;K-means聚类
Clustering Research of the public opinion analysis of sina microblog
Abstract
Sina Weibo is a platform for the public to provide entertainment and leisure services information sharing and exchange. Whether it is business or personal name, or a nameless grass, can speak one"s mind freely to communicate with each other. This also makes the use of the microblogging more popular, the amount of micro blog information is unusually large. In the face of massive data messages, we can not through a manual way to conduct a comprehensive monitoring of the Internet. Therefore, combined with the technology of network information collection and text information automatic processing technology, this paper proposes to establish a network public opinion automatic analysis system, there will be conducive to social management researchers timely understanding of the status and trend of the network of public opinion, so it can be found the focus of public opinion on the timely intervention, dredge guiding people"s emotional and psychological, to avoid contradictions further deterioration and cause greater loss to society.
However, currently the microblogging site general according to the number of comments and forwarding statistics a hot topic, the accuracy is relatively low, there is an urgent need for a is more suitable for the microblog text clustering algorithm identified microblogging users concerned about the hot topic, public opinion hotspot. In this paper, a typical clustering algorithm based on clustering is chosen, and the text clustering is carried out by K-MEANS algorithm.. , the biggest advantage of the algorithm is simple, efficient, but algorithm in the initial clustering center and the selection of K value determined is difficult, once the improper selection, easy to make the clustering results fall into local optimum, thus affecting the accuracy of clustering results. The according to the clustering results sensitivity to the initial clustering centers, the selection of the initial clustering center is improved and improved k-means method and the traditional K-means method respectively, the microblogging text clustering, and the evaluation of the clustering results, further validation of the effectiveness of the improved k-means clustering.
Keywords: Sina Weibo; public opinion analysis; K-means clustering
目录
摘要 I
Abstract II
第一章 引言 1
1.1研究背景与意义 1
1.2研究方法 1
1.3研究现状 2
1.4新浪微博及其发展现状 3
1.5新浪微博功能及特点 3
1.6本文的研究内容及创新之处 3
1.6.1 本文的研究内容 3
1.6.2 创新之处 4
1.7本文的组织结构 4
第二章 系统的总体设计 5
2.1系统设计的目标 5
2.2系统体系结构设计 5
2.3开发环境 6
第三章 新浪微博数据的获取 7
3.1 数据获取方案 7
3.2 抓取数据的界面及其实现 9
第四章 数据的预处理 11
4.1分词处理 11
4.2停用词过滤 12
4.3 微博文本表示 14
第五章 微博文本的K-means聚类 16
5.1 K-means算法描述 16
5.2 K-means算法优缺点分析 16
5.3改进的K-means算法初始聚类中心选取 17
5.4 使用改进的K-means算法对微博文本进行聚类 18
5.4.1 改进的初始聚类中心的选取 18
5.4.2 基于K-means的微博内容的聚类 18
第六章 系统功能测试与分析 19
6.1 系统测试的目标 19
6.2 系统的测试环境 19
6.3 系统功能的测试 19
6.4 测试的结果分析 25
6.5 本章小结 25
第七章 总结 26
7.1 本文工作总结 26
7.2 下一步工作与展望 26
致谢 27
参考文献 28
附录 29
引言
1.1研究背景与意义
作为新时代的社交媒体与信息交流平台,微博在这几年发展迅速。虽然微博出现还没几年,但是它强大的人气,强劲的发展势头,却一直能让许多老牌社交媒体难以望其项背。微博可谓是互联网服务的集大成者,它的设计模式集成了博客,即时通讯和电子邮件的特点,让社交变得更加多样化,人们有更多的选择。多平台客户端的发布也让人们能随时随地发布信息,参与互动,体验新时代的交互技术带来的便捷。
微博最初是从美国的twitter网站开始的,twitter译为鸟鸣,包含了简短,高分辨度的特点。该网站使用这个作为站名,就是想告诉用户他们的服务也是简洁迅速并且跟其他的网站提高的服务有很大的区分度。显然,在当时还流行这老旧博客的时代,微博的出现无异于一颗明星跃然海上。Twitter在很短的时间内拥有了大量的用户。国内的互联网商看到了微博的美好前景,纷纷开发出一些列微博平台,然而却因为没有合理的管理模式,成熟的运转模式而纷纷关闭。2009年8月,新浪公司推出的新浪微博正式内测,从此,中国进入微博的新纪元。
剩余内容已隐藏,请支付后下载全文,论文总字数:43764字