基于SVM在线评论情感倾向判别的研究开题报告
2020-11-13 21:36:10
1. 研究目的与意义(文献综述)
1.1研究目的及意义
近年来,随着科学技术的发展,互联网越来越成为人们生活不可或缺的一部分,而网购凭借其便捷、省时省力、选择性多等特点,成为了备受人们喜爱的一种购物方式,这就使得很多例如淘宝、京东、聚美优品、当当之类的电商网络迅速崛起。在网购已经成为一种主流购物方式并深受大家喜爱的今天,我们在网络上购买的东西不再单一,而是越来越多样,从衣物到书本到零食到化妆品,各式各样的商品充斥着网购平台,我们的选择也越来越多。但是网购作为一种具有虚拟性的购物方式,我们并不能够直接地接触商品,这就使得各种商品评论在决定我们是否购买这种品牌或这种样式的商品中起到了至关重要的作用。我相信很多买家在发现了一件自己比较心仪的商品后,都会先查看宝贝评价,根据之前买过此商品的买家的评论,来判断性价比,再来决定是否购买此商品。由此可见,商品的在线评论对于买家是极其重要的。但是如何能从这几万条带有主观感情的评论中提取出对我们自己有用的信息就成了一个需要好好研究的问题了,这时候我们就需要引入一个词——情感倾向,众所周知,我们对一样商品评价,情感倾向无非是倾向于正面的好的或者是负面的不好的,而我们只需要根据此商品的正负面评价数量的比例就可以很好的做出决定了,正面评价多的即值得购买,负面评价多的即不值得购买。而商家也可以根据买家的情感倾向对他们自己的商品的市场做出更好的判断,得到更好的认识,研究好了在线评论情感倾向不仅可以使买家受益也可以使商家受益。所以,进行在线评论情感倾向的判别方法的研究是很有意义的。
1.2国内外研究现状
对于在线评论情感倾向判别的研究,目前主要分为两种:基于机器学习的方法和基于语义词典的方法。基于机器学习的方法是利用机器学习的各种分类方法来识别情感;而基于语义词典的方法则先构造情感词词典或列表,借助该字典判断情感的倾向。在当前的研究中,基于语义词典的方法多主要用于对微博评论情感倾向分析的研究,而对于在线商品评论主要是使用基于机器学习的方法。基于机器学习的方法就有很多了,例如关联分析、决策树、感知器、支持向量机(即svm)、反馈神经网络、贝叶斯网络等等,这些方法很多国内外的专家学者都有做过大量的相关研究,例如徐军等人利用最大熵方法和朴素贝叶斯方法对新闻评论预料进行过分析,这种方法的准确率能够高达90%,但是召回率不高,这里就要说一下,进行情感倾向判别的方法有很多,我们如何来判断我们所使用的方法是否较好呢?这就要用到三个性能指标即准确率,召回率和f均值,准确率即判断为判断正确的正面评论的评论数除以我们提供给svm分类器的评论总数的数值,召回率即判断正确的正面评论的评论数除以总的判为正面评论的评论数的数值,f均值即2倍的准确率与召回率的乘积除以准确率与召回率之和的数值,这些数值越高代表我们的方法越好。再例如樊娜等人利用最大熵模型对句法分析得到的评价对象和评价短语的路径特征进行识别,虽然准确率较高但是若评论文本句法不规范则会影响到分析,显然我们的很多评论都是具有主观性的,句式也比较随意,孤儿此种方法并不能很好的试用。再如liu.k等人在引入条件随机场对意见持有者识别的基础上增加了上下文依存关系和位置等特征来提高准确率,但是其f均值只有0.47。经过查阅国内外各专家学者的期刊和论文,并对他们使用的判别方法进行了研究和比较后,我发现基于支持向量机(即svm)的情感分类方法稳定性较好,对于数据量较小、标注完整的数据集具有较好的效果。支持向量机svm是一种有监督的学习模型,它在解决小样本、非线性及高维模式识别中具有许多优势,我要做的就是利用svm算法对在线评论进行情感倾向的判断,并进行仿真验证与对比试验。
2. 研究的基本内容与方案
2.1研究目标
针对在线评论情感倾向判别的问题,我们要将输入的在线评论分为正面和负面。为了研究这个问题,我们要建立基于svm分类器的数学模型,利用算法训练分类器以确定最优分类函数,从而将所需测试的评论分为两类。
2.2研究内容
3. 研究计划与安排
第1-3周:查阅相关文献资料,明确研究内容,学习毕业设计研究内容所需理论的基础。确定毕业设计方案,完成开题报告。
第4-5周:掌握java开发环境和使用方法,了解svm算法的相关理论知识。
第6-9周:学习在线评论情感倾向判别的相关知识,完成整个系统的前期设计工作。
4. 参考文献(12篇以上)
[1]彭德焰,胡欣宇. 基于svm的产品评论情感分析系统的设计与实现[j]. 物联网技术,2016,(11):76-79.
[2]肖江,王晓进. 基于svm的在线商品评论的情感倾向性分析[j]. 信息技术,2016,(07):172-175.
[3]李婷婷,姬东鸿. 基于svm和crf多特征组合的微博情感分析[j]. 计算机应用研究,2015,(04):978-981.