基于大数据平台的微博恶意差评分类与处理研究毕业论文
2021-10-20 19:21:04
摘 要
随着自媒体的飞速发展,越来越多的人们喜欢在各种开放的社交平台上分享自己遇到的新鲜事,与此同时,也有越来越多的人喜欢在其他人的作品下面发布自己的观念与想法。这样的开放式交流平台,免不了会吸引大批量的垃圾用户,他们在他人作品的评论中发布无关广告等各种垃圾信息,严重影响作品的作者以及其他正常用户的使用体验。而在众多社交平台中,作为目前最受欢迎的新浪微博自是首当其冲。所以,不管是对平台还是用户而言,识别出恶意评论并将其分类处理是十分必要的。
目录
第1章 绪论 5
1.1 研究背景及意义 5
1.1.1研究背景 5
1.1.2研究意义 6
1.2研究方法与思路 7
1.2.1研究方法 7
1.2.2研究思路 7
第2章 相关背景知识与技术 8
2.1中文分词 8
2.2语义分析技术 9
第3章 可扩展恶意词典的获取 9
3.1爬虫系统实现与数据采集 10
3.1.1微博评论爬虫程序设计 10
3.1.2建立数据库 12
3.1.3爬虫程序的实现 13
3.2词典的实现方案 14
3.2.1基础恶意词典 15
3.2.2停用表建立 17
3.2.3可扩展恶意词典的构建 18
3.3实验结果分析 19
3.3.1判定方法 19
3.3.2实验结论 20
第4章恶意评论分类 20
4.1获取评论内容分数 20
4.1.1评论内容分数定义 20
4.1.2计算评论分数 21
4.2分类实验方案 22
4.2.1实验方案设计 22
4.2.2实验方案实现 23
4.3实验结果分析 24
第5章 总结与展望 26
5.1研究总结 26
5.2未来展望 27
绪论本章节是介绍网络社交平台中恶意评论识别检测的研究背景和研究方法思路。 研究背景及意义1.1.1研究背景自互联网出现之后,网络发展至今已经成为几乎每个人不可或缺的生活必需品,关系到人们生活的方方面面。而作为众多网络衍生物产品中,娱乐方向的产品往往可以得到大众的关注。其中,在线社交平台一经出现,便吸引了海量用户的参与。 随着移动网络技术的飞速发展和更多更好的在线社交平台的搭建,越来越多的人参与到在线社交中,通过在线社交平台与形形色色的人交流分享。在线社交网络的构建打破了区域,语言等诸多限制,使得不同国家,不同肤色的人们能够通过社交平台进行交流分享。而在国内的众多在线社交平台,首屈一指的便是新浪微博(后简称微博)。作为国内最流行、最受欢迎的在线社交平台之一的微博,吸引了海量用户在线分享自己的所见所闻和所思所想。但是在这海量用户中,也包含大批量恶意用户,他们在其他正常用户作品的评论区发布多种垃圾评论,这些发表垃圾评论的用户通常拥有很强的目的性,或为满足一己私利,或为抹黑他人等。但无论出于什么目的,其行为都对微博整体风气和普通用户的使用体验造成了非常不好的影响。 这些用户通过在其他正常用户作品的评论中,发布广告、色情、钓鱼等不良信息,又或者故意发布带有辱骂、栽赃等字眼的评论来扰乱用户视线,带坏平台风气。本文将这些评论通过成为恶意评论。这些恶意评论的主要危害如下: 1.网络平台绿色健康的环境得到严重影响。 2.正常用户在社交网络上的用户体验遭遭受网络上的低俗词汇迫害。 3.侵害其他普通正常用户权益的行为已构成违反网络社交行业规则的违规。 1.1.2研究意义Web2.0时代最重要的特点之一就是产品用户既是信息的生产者又是信息的消费者,这样的方式加强了各个用户之间的联系与互动,使得传播和扩散信息变得更加迅速高效,产品的用户所获取的信息也会一直是最新、最及时的。但是内容生产门槛的降低也导致了信息爆炸局面的产生,随之而来的是不可避免的各种问题。那么,针对在线社交平台上存在恶意评论的问题,如何识别处理恶意评论从而达到减少社交平台上整体恶意评论的数量,给用户带来好的体验,是本文拟要研究解决的问题。本文的研究意义可以分为理论意义与现实意义两个方面。 从理论意义上来讲,本文在线社交平台上恶意评论的问题进行研究讨论,可以进一步丰富在恶意评论识别领域的研究成果。目前为止,国内外的研究学者关于评论方面的研究文献已有很多,比如论坛垃圾回帖的识别与过滤,用户评论质量评估。第三方点评网站的垃圾评论分类等。但是针对在线社交平台中的恶意评论问题进行的研究成果还不算是丰硕,尤其是国内对于这个方向的研究讨论更是显得薄弱。所以,本文从新浪微博的恶意评论方向进行研究,具有一定的创新性,可以拓宽补充对在线社交平台有关评论问题的研究视角,具有一定的理论意义。 从现实意义上来讲:首先,对降低微博中恶意评论的比例有很大帮助。新浪微博作为国内在线社交平台的领军人物,拥有海量的内容作者和相应的海量评论,其中出现一部分非正常评论是不可避免的。本文对微博中恶意评论进行研究讨论,有利于提高微博识别检测恶意评论的能力,帮助提高用户的评论质量,有助于微博这样的在线社交平台的绿色健康发展。
1.2研究方法与思路1.2.1研究方法(1)文献研究法 本文实验需要大量有关评论内容识别方面的国内外的文献成果为支撑,了解现阶段该论题的研究进展情况,找出该论题以前研究的不足同时避免研究重复内容。 (2)对比分析法 在论文中将使用不同的算法数据在不同内容特征组合下的分类试验对比。对比分析实验结果,比较不同分类特征值的优劣,不同特征组合的效果。 1.2.2研究思路本研宄以国内的新浪微博为研宄对象,重点对新浪微博中恶意评论进行研宄,研究微博恶意评论内容的相关特征,做到识别检测恶意评论文本的目的,最后进行分类处理,加强微博对恶意评论的识别能力。具体研宄思路如下: (1)在已知的国内外在线评论的先人研宄成果的基础上,深度挖掘该领域中研宄方向相对薄弱欠缺的部分,充分了解需要研究的识别领域的知识现状,为之后的评论内容识别做好理论基础准备。 (2)归纳总结微博评论内容识别及其相关研宄的相关理论。包含但不仅包含爬取数据,中文语句处理,文本情感分析。 (3)研宄对象确定为新浪微博,通过设计爬虫系统爬取微博上微博评论内容的相关数据。获取之后对得到的数据进行预处理,实践实验和最终结果分析。对评论内容实行但不仅实行中文分词处理;相对于新浪微博本身,需要删除微博相关停用词;计算多种不同评论内容情感值等诸多处理步骤,为得到最终有效可靠的实验结果。 第四,从上述多次试验步骤得到实验分析结果中选择多种特征指标,相应地构建分类模型,并进行相关的模型测试。在每个实验测出的多组准确率和F1值(F1—measure)中,选择综合说服力较为强的的模型作为本文最终所要构建的分类模型。 第五,分别讨论本文构建的模型于微博、内容作者和普通用户三方的用处。 最后,针对本文实验的研究过程与实验结果分析做出全文总结,并对本文实验的局限性作出说明的同时对未来研宄方向做出合理猜想与展望[1]。 第2章 相关背景知识与技术2.1中文分词中文分词[2]指的是将一个中文语句切分成一个又一个独立的且又有意义的词语序列的过程。相对于西方文字(例如英文等)的分词,中文分词的难度会显得较大,中文在分词是需要处理比其他与语种更多的问题,例如:相同词语出现歧义、识别时代发展产生的新生词、注意切分过程中的规范等。 结巴中文分词[3]是一种在已知的词典基础上将一个中文语句切分成词语序列的工具。结巴分词的分词流程如图所示。 2.2语义分析技术微博评论内容往往是多种情感的表达,通过语句语义来清除分析评论人的情感就显得十分重要。Word2vec[4]作为一种能够将词语进行不断嵌套学习的预测模型,其特点就是高效率。其现在比较常用的有两种变体[5],一个是连续词袋模型(CBOW),另一个是Skip-Gram模型。这两种预测模型的变体从算法角度看非常相似,但也有一点完全不同的差别,就是预测的词汇目标。前者根据给出的原始位置上下文词汇来预测所需要的目标词汇,而后者做法恰恰与其相反,它通过前者的目标词汇来预测原始词汇。 第3章 可扩展恶意词典的获取恶意内容的评判在新浪微博整体环境中是举足轻重部分,原本微博的绿色健康环境因大量的恶意评论而遭到严重破坏。本章获取基本的恶意词典,并将其基于基本语义的进行改进完善,为之后的恶意内容检测做准备。在实验进行过程中,考虑到微博本身开放的特点,基础恶意词典本身显得略微不足中,所以选择加入了在线评论中经常出现的恶意词汇的相关变体,来提高实验成功率。 3.1爬虫系统实现与数据采集大量的实验数据是实验顺利进行的基础要求。本章节主要为本文获取新浪微博中的有关微博评论内容数据的详细爬取过程与分析过程。热门微博的影响范围大,浏览量和评论数量多。但是不例外的是热门微博下的评论中必然会有一些无意义的无关乎微博原意的内容。新浪微博平台上的广告用户为了自己的个人利益,为了获取用户的关注,也会选择在浏览量大的热门微博下发布相关广告来获取流量。带有明星字眼的话题容易一有较高的关注度,所以相对应的,也会出现很多该明星的粉丝用户,想通过评论来提高自家爱豆的热度和人气。这样拥有冲突性质的微博与本文实验所需一拍即合。 3.1.1微博评论爬虫程序设计本节对自行设计的微博评论爬虫设计与实施进行了详细说明。 (1)开发环境 系统:Windows10 系统使用框架:SpringMVC[6] 开发语言:Java 数据库:MySQL5.6 框架:WebCollector (2)系统概要 爬取新浪微博的评论内容数据的前提需要通过身份验证。所以,系统首先要进行就是用户身份验证,输入的热门微博链接,接着就会爬取该链接下的微博评论内容数据。 本模块主要功能为抓取评论与抓取用户信息。下图为概要设计流程图。 获取该链接热门微博下的评论信息,需要处理HTML数据,需要设置评论层数与评论等级,并且将获取的微博用户名、评论用户名、评论点赞数量、评论时间这些数据存储在数据库中。 (3)功能详细说明 本小节主要说明了本系统中两个主要功能的详细设计。分别是抓取评论模功能,抓取用户信息功能。 首先进行身份验证,验证后会获取一个cookie,将cookie存储到数据库中。然后提供链接,进行爬取,获得评论内容数据。。考虑要将所有数据存储到MySQL数据库中,但是emoji等符号格式的存储不易实现,考虑到其在实验判断中作用无关紧要,决定将其删除。具体时序图如下: 3.1.2建立数据库为了保证实验的继续顺利进行,之前的大量数据需要存储。根据之前叙述的内容,利用MySQL数据库进行存储数据,该数据库能够适应多种环境所要求。本文设计了两个相关数据表分别存储用户微博和用户评论,如下图所示。
下图为用户微博内容数据表(TWEETS_TABLE)
该表中的CONTEXT字段用于用户微博内容的存储,并且数据与某评论内容为一一对应。表中的用户ID为发布微博的用户。表中的微博内容为原微博内容,由于是直接获取的,所以没有经过任何处理。表中的评论数量,被赞数量,被转发数量截止到当时为止。 COMMENTS_TABLE为热门微博评论数据表,表中存储的用户ID为评论用户ID,表中的COMMENTCON字段用于存储评论内容。下表为该数据表的结构。
|