基于新闻报道的数据采集工具设计文献综述
2020-06-26 20:09:37
文 献 综 述 一、选题背景与意义 根据中国互联网络信息中心最新的统计报告(2017),截至2017年6月,中国网民规模达到7.51亿,占全球网民总数的五分之一,其中手机网民的比例为96.3%。
互联网普及率为54.3%,超过全球平均水平4.6个百分点[1]。
随着互联网的普及,我国已经成为拥有庞大网民规模的信息化国家,互联网成公众获取新闻信息、表达观点的最重要的舆论平台。
新闻业也在互联网时代的影响下产生了巨大的变革,各大新闻媒体纷纷通过互联网这一广阔的平台报道各类新闻,公众通过各种APP阅读每日新闻也早已成为一种常态化的现象。
网络新闻往往伴随着网络舆论,而庞大的网络舆论也会使新闻更加为人所知,甚至引起政府有关部门的重视。
种类繁多的新闻所造成的后果是逐渐在网络上形成一种大数据环境。
这是一类具有规模大、多样性、速度快、难辨识等特征的大数据,会将人们带入信息过载的困境,而人工关注能力的有限性和网络舆情数据的无限性,又加剧了人们对网络新闻认识的”盲人摸象”效应[2]。
而类似于食品安全、质量安全的新闻报道,其周期往往会从几个月到几年不等。
如何从如此漫长的周期中,挖掘出相关的新闻报道数据,并从中分析、追踪、预测出事件发展的过程,这是难以依靠人工力量解决的问题。
而与大数据相伴而生的数据挖掘技术,具有关联分析、分类与回归、聚类分析、离群点分析等功能[2]。