网络直播间弹幕文本数据挖掘文献综述
2020-05-04 21:18:55
随着互联网的迅猛发展与普及,网络信息呈爆炸式的增长,直播行业的火热发展影响着人们日常的娱乐方式。面对信息爆炸的时代,在娱乐方式的转变之下,人们希望能方便快捷地从海量的弹幕信息中获取自己感兴趣的信息,帮助主播了解观众的需求及对于互相交流提供便利,特别是直播网课时学生问题的总结等。这对传统的信息检索、过滤、提取等信息处理技术提出了巨大挑战。而且不同用户对弹幕评论等信息的需求不一样,有人关心学习问题,有人则关心娱乐性质问题,比如说观众对于主播操作的交流需求,这就是看直播的用户倾向性。因此,人们迫切地希望拥有一种工具,能够提取弹幕及评论等任务,自动把相关问题按主题进行组织,并以一定的方式推送给主播及观众,让人清晰地得到弹幕及评价里有用的消息成分,为用户提供高层次高质量服务。
目前针对网络数据处理方面的需求,一般采用的方法还是传统的关键词检索技术(例如:搜索引擎)。然而,由于当前网络信息量太大,流动速度快,与一个人们所关心的主题相关的信息往往孤立地分散在不同的时间段和地方,使得这种传统方法返回的信息冗余度过高,很多不相关的信息仅仅因为含有指定的关键词就被作为结果返回了,造成人们对某些新闻事件难以做到全面地把握,大量有价值的信息不能有效被筛选出来,很多信息白白的损失。
主题检测与追踪(Topic Detection and Tracking,TDT)正是在这种应用背景下产生的,它是一种检测新出现的主题并追踪主题发展动态的信息智能获取技术。主题检测与追踪研究的初期动机是提供一个核心技术,它能够支持预想的系统,该系统能够监控广播新闻并对发生的新的和感兴趣的事件进行分析。应用TDT技术,可以把分散的信息有效地汇集并组织起来,从整体上了解一个主题的全部细节以及该主题中事件之间的相关性,将文本信息按照其表达的主题进行层次式的归类和组织,方便用户的检索浏览和选择使用,也可以主动将专题信息推送给用户,实现个性化服务。可以预见,这个技术在搜索引擎、门户网站建设、信息监控、行业调研、知识管理等领域都有广阔的应用前景。
主题词词频、共词分析、引文聚类和文本聚类是目前文本数据挖掘的重点技术,利用这些技术对弹幕评论等内容进行研究得出总结及有效性的信息非常具有价值。
{title}2. 研究的基本内容与方案
{title}
基本内容:弹幕及评论网页URL爬取,文本的聚类分析,数据的可视化处理
目标:使用文本挖掘算法把直播弹幕评论等信息进行处理,得出对于观众及主播有用的信息,对于网课直播平台,得出学习的有效性笔记,方便学习的温习及知识点的处理,对于live系列直播,得出知识付费的受众方便答主轻易推广,即采用文本挖掘算法,对于信息进行处理,综合得到一些实用的数据结果。
拟采用技术方案:
URL内容采集方法:URL队列、URL处理器、网页采集器、网页去重检测器、URL提取器、网页标签信息获取器和数据库。使用Python对于网站URL队列中的文字进行爬取,依赖网络页面之间的链接关系,从网络上自动地获取页面信息,并且随着链接不断向所需要的网络页面进行扩展。
文本分析方法:文本预处理(分词法,基于词性、句法、语义分析),权重分析(进行信息分发与信息过滤),进行聚类分析(使用K-means算法进行聚类分析)
数据可视化:对于进行分析的数据进行深层次的可视化处理,对于不同类的文本挖掘内容进行可视化处理,在Excel软件中利用图形生动形象地得到文本的深层内容,分析直播的各种数据及利弊发展。