Scikit和CNTK机器学习方法研究毕业论文
2021-04-17 23:35:27
摘 要
随着互联网和智能手机的普及,人们每时每刻都在产生海量的数据,这些数据蕴藏着人们的个人喜好、行为方式、价值取向等等,具有巨大的商业价值和社会价值。通过机器学习,我们可以从海量数据中提取知识和规律,充分利用宝贵的数据资源。本文为了减少噪音对SVM分类产生的消极影响,提出了一种基于AdaBoost的SVM集成算法,并以《爱乐之城》的豆瓣网影评作为文本语料,通过实验进行不同算法的情感分类效果的对比,实验结果证明,使用基于AdaBoost的SVM集成算法进行情感分类可以提高分类的准确度。然后以基于AdaBoost的SVM集成算法作为实验对象,研究不同文本预处理方法、不同特征选择方法和内部参数的调整对文本情感分类效果的影响。
本文完成的工作如下:
介绍了利用机器学习进行情感分类的相关知识以及具体步骤,包括文本预处理,文本的表示,特征选择算法,分类算法和分类性能等。
为了减少数据集中的噪音对SVM算法产生的消极影响,提出了一种基于AdaBoost的SVM集成算法。
(3)以电影《爱乐之城》的豆瓣影评作为语料数据集,分别使用基于AdaBoost的SVM集成算法,随机森林,SVM和朴素贝叶斯对其进行情感分类,以准确率和召回率作为评价指标对分类效果进行评价。
(4)研究在使用基于AdaBoost的SVM集成算法进行情感分类时,每一个步骤的不同方法和算法内部参数的调整对分类结果的影响。
经过实验和优化之后发现,基于AdaBoost的SVM集成算法的分类准确度达到93%,优于几种传统的机器学习方法。
关键词:情感分类;机器学习;scikit-learn
Abstract
With the popularization of the Internet and smart phones, people are generating massive amounts of data at all times. These data contain personal preferences, behaviors, values, and so on, and therefore have enormous commercial value and social value. Through machine learning, we can extract knowledge and laws from massive data and make full use of valuable data resources. In order to reduce the negative impact of noise on SVM classification, this thesis proposes an AdaBoost-based SVM integration algorithm, and compares the effect classification of different algorithms by experiments using the Watercress Network Criticism of the City of Philharmonic as a text corpora. The experimental results show that the use of AdaBoost-based SVM integration algorithm for emotional classification can improve the classification accuracy. Then the AdaBoost-based SVM integration algorithm was used as the experimental object to study the effect of different text preprocessing methods, different feature selection methods and internal parameter adjustments on text sentiment classification.
The work done by this thesis is as follows:
(1) Introduce the related knowledge and concrete steps of using machine learning to classify emotions, including text preprocessing, text representation, feature selection algorithm, classification algorithm and classification performance.
(2) In order to reduce the negative impact of noise in the data set on the SVM algorithm, an AdaBoost-based SVM integration algorithm is proposed.
(3) The Douban comments of the film “La La Land” was used as the corpus dataset. The AdaBoost-based SVM integration algorithm, random forest, SVM and naive Bayes were used to classify the emotions respectively. The accuracy and recall rate were used as evaluation index to evaluate the classification effect.
(4)Investigate the influence of different methods of each step and the adjustment of the internal parameters of the algorithm on the classification results when using the AdaBoost-based SVM integration algorithm for emotion classification.
After experiments and optimization, it was found that the classification accuracy of AdaBoost-based SVM integration algorithm reached 93%, which is superior to several traditional machine learning methods.
Keywords: sentiment analysis; machine learning; scikit-learn
目录
第1章 绪论 1
1.1 研究背景 1
1.2 国内外研究现状 1
1.3 论文内容与结构 2
第2章 基于机器学习的情感分析相关理论 4
2.1机器学习的类别 4
2.2基于机器学习的情感分析的基本流程 4
2.3文本预处理 5
2.3.1规范编码格式 5
2.3.2中文分词 5
2.3.3去停用词 5
2.3.4文本的表示 6
2.4特征选择 6
2.4.1词频方法 7
2.4.2 TF-IDF方法 7
2.4.3文档频率方法 8
2.4.4互信息法 8
2.5中英文文本预处理的异同 8
2.6文本分类算法 9
2.6.1决策树 9
2.6.2随机森林 9
2.6.3支持向量机 10
2.6.4朴素贝叶斯 11
2.7分类性能 11
第3章 基于AdaBoost的SVM集成算法 13
3.1 SVM与AdaBoost算法 13
3.2 基于AdaBoost的SVM集成算法 14
第4章 不同算法的分类效果比较 20
4.1实验环境Python与Scikit-learn 20
4.2实验数据 20
4.2.1国外电影数据源 20
4.2.2国内电影数据源 20
4.3文本预处理 21
4.4特征的选择 21
4.5文本分类 23
4.6实验结果分析 24
第5章 优化实验 25
5.1训练集测试集的划分对分类效果的影响 25
5.2分词模式对文本分类效果的影响 26
5.3特征选择方法对分类效果的影响 27
5.4支持向量机核函数对分类效果的影响 28
5.5实验结果分析 28
第6章 总结与展望 29
6.1 经济性分析与全文总结 29
6.2 展望 30
参考文献 31
附录 33
致谢 35
- 绪论
- 研究背景
《中国互联网络发展状况统计报告》显示,截止2017年年末中国网民的数量已经突破总人口的半数,达到了7.72亿,中国互联网发展极为迅速,随之而来的是海量的信息,其中百分之八十的信息以文本形式存在。进入二十一世纪以来数据信息已经成为世界上最关键最珍贵的资源之一。如今社交软件已经逐渐成为了人们生活中不可或缺的一部分,人们通过微信,QQ,微博等发布大量带有情感的主观文本信息,对这些文本信息进行挖掘具有极高的潜在价值。近年来,电子商务的飞速发展以及互联网的普及,网购已经成为了人们主要的购物模式之一,由于消费者在购物时并不能够亲眼看到实物,他们更倾向于去参考和信任已购买商品或服务的顾客的感受,评论本身就是消费者对产品、品牌最直接的态度表达,对品牌方价值颇大,有时会对销量产生重大影响。以前非结构化数据难以处理,品牌方很难系统、全面地从海量评论数据中挖掘商业洞察,才致使这部分宝贵数据被浪费。机器学习则可以从天文数字级别的数据量中提取出知识和规律,使得商家可以充分利用商品的评价进行商品的改进,反思,决策等。
自然语言处理是人工智能的一个重要领域,它融合了语言学,计算机科学和数学,研究目标是让计算机能够理解并且生成人类的语言。自然语言处理的典型应用有情感分析,评论观点抽取,词义相似性计算等。中文文本的情感分析属于自然语言处理的一种,近年来随着硬件成本的下降,人工智能技术的发展和数据资源的增多与开放导致中文文本的情感分析发展迅速。自动判断带有情感倾向的文本的情感极性(积极,中性,消极)并给出相应的置信区间。情感分类能帮助企业理解用户消费习惯、分析热点话题和危机舆情监控,为企业或者政府提供决策支持。
- 国内外研究现状
机器学习的魅力在于可以在不知道原理的情况下,通过对大量数据的分析中提取出规律,再对未知类型的数据进行分类。情感分类的概念由麻省理工大学的R.Picard教授提出,情感分类的主要方法有基于情感词典的方法和基于机器学习的方法两种。基于情感词典的方法的主要的步骤为,首先人工标注词典里的词汇,通过查找积极情感和消极情感的关键词,通过特定的计算方法来判断情感极性。情感词典的关键在于词典的扩充,将互联网词汇,新型词汇随时补充到词典中。而且,基于词典的方法存在领域依赖问题,在某一领域的词典并不适用于另外一个领域。