一种改进的话题检测算法研究文献综述
2020-05-02 18:00:03
本文是针对已有的话题检测算法的改进。话题检测可以及时发现互联网舆情热点和突发性事件,并可对话题进行持续跟踪,从而实时掌握舆情事件动向。根据已有的一些话题检测算法,例如基于聚类的改进话题检测和跟踪算法,进行改进。
网络舆情检测是一个包含众多关键技术的综合性课题,其中话题检测和跟踪是舆情系统较为核心的一个应用功能。通过话题检测可以分析每天的舆情热点,并在此基础上对某个话题进行跟踪,从而分析整个话题,即舆情事件的起因、发展至消亡的全过程。随着互联网技术的发展和普及,网络媒体每天发布的新闻资讯、博客、论坛帖子呈指数型增长,微博更是随时更新海量的碎片化信息。因此如何快速,准确地从海量信息中发现热点话题并对其进行有效的跟踪是舆情检测系统研发的重点。
话题检测与跟踪(Topic Detection and Tracking,TDT)主要是利用聚类技术对海量的网络数据进行聚类分析,将讨论和报道相同话题的资讯、论坛帖子、博客内容聚合到一个统一的分类中,建立一个热点话题,并在后续新增的数据中进行增量聚类,对已经粗在哪跌话题进行追踪分析。其中核心的算法就是聚类算法,聚类有较为成熟的算法模型,其算法也是多种多样的,有SVM、KNN、贝叶斯等,但话题检测不等于聚类,一个热点话题可能包括很多个子话题,是一个多层次聚类,需要结合行业应用特点进行改进和参数调整,从而更好的适应网络舆情应用环境。
文中提出了一种改进的话题和跟踪算法,比同类检测算法具有更高的精准性和效率,且保证了话题的内聚性,进而对话题进行精确的跟踪分析。
{title}2. 研究的基本内容与方案
{title}1、根据已有的话题检测算法模型,研究其核心思想,并找出能够改进的地方。
2、现有的舆情研究中未考虑突发话题的形成机制,导致应用到实际效果不佳,例如检测时间慢,且只能战队离线数据进行突发话题检测。从话题聚类效果和速度的最优角度出发,进行聚类优化,期望达到好的效果
3、特征向量的抽取,为了增强话题内文章的内聚性,提高聚类的准确性,系统采用双向量,一个是基本向量,一个是主干向量。
4、基于句法分析的主干向量抽取,与普通向量抽取方式一致,但需要对文本进行预处理。
5、中心向量提炼:代表话题特征的一个VSM向量,是经过计算从话题所有文本VSM中提炼出来
6、算法实现。