web热点新闻舆情分析系统文献综述
2020-04-15 17:08:28
1.1研究目的与意义
随着世界进入信息网络时代,互联网新闻信息急剧增长,形成了“新闻大爆炸”的现象,许多热点时事能够短时间内在互联网上迅速传播,同时又造成了大量信息的混乱无序。人们在面对大量的热点新闻、话题的情况下了解掌握社会信息的动态,了解网络舆论变得越来越困难。而随着互联网逐渐迈入移动化时代,智能手机和平板电脑等智能设备的广泛使用成为移动互联网时代的重要标志,这些智能移动设备也成为了社会普通大众获取信息和参与舆论的重要载体。但是人们缺少将热点新闻和话题的热度与事件发生地相关联的热度可视化工具,因此,本次研究的主要目的是探索建立网络热点新闻的检测与发现体系,然后结合基于地图API的web地图服务,把新闻热度以可视化的方式展现在web地图上,为大众用户提供更直观的实时热度和舆论态势。
1.2研究现状
目前国内外已有较为成熟的热点新闻、事件的发现方法研究。文献[6]采用向量空间模型(VSM)和主题模型(LDA)对获取到的新闻文档进行建模研究,按照所属领域分类,利用热点新闻检测方法发现热点话题。其中使用到的话题检测方法是在文本聚类的基础上实施发展的,而文本聚类的的方法又包括单遍历(Single-Pass)聚类算法、KNN/Kmeans聚类算法、层次聚类算法。在参考该文献后,发现利用文本聚类的方法将新闻网页文档进行聚类后,为了检测出热点话题时间,方法上应采用多层聚类方式,即初步聚类采用KNN聚类方法,对于各类子类话题采用经典的Single-Pass聚类的方式进行。
在文献[8]中也介绍了使用Single-Pass聚类方法和热度计算公式,其中热度计算是目前国内外研究较少的方面,在学习了这篇文献后,对本次研究的热度相关的计算提供了很好的思路。
地图API可让第三方网站通过API编程方式调用地图服务网站数据库中的信息和功能。当前主流的地图API有Google Map API、Virtual Earth API、51 Map API、百度地图API、高德地图API等,基于web GIS的网络地图服务及应用给企业和个人带来了极大的便利,以往的地理数据资源被应用于城市规划、旅游、房产、环境和企业信息化等领域,本研究将尝试将这一技术和热点新闻和话题结合,应用在新闻传播和预警方面。
{title}2. 研究的基本内容与方案
{title}2.1研究内容
(1)爬取新闻文档信息并进行建模和文本聚类
(2)提取热点话题并进行热度计算
(3)结合Web地图服务展示结果