登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 物流管理与工程类 > 物流工程 > 正文

Scikit和CNTK机器学习方法研究文献综述

 2020-04-29 15:20:09  

1.目的及意义

二十一世纪以来,中国互联网行业取得了蓬勃发展,网民数量与互联网普及率不断增长,中国互联网信息中心发布的第 38 次《中国互联网发展状况统计报告》显示,截至 2016 年 6 月,我国网民数量连续多年保持增长,互联网普及率超过百分之五十。认知心理学研巧表明:人们的信息交流行为受情感影响。在现实社会中,互联网用户的行为和信息传播包含着用户群所表达的情感信息,并通过社会关系链传递。随着互联网的飞速发展和社交媒体的普及,网上产生了大量的用户衍生文本,而这些文本主观性很强并带有明显的情感倾向和丰富的情感信息,具有很高的研究价值。情感分析技术被广泛应用于电影评论分析、在线购物平台商品评价分析、政治选举结果预测、金融股票走势预测、顾客购买习惯分析等领域。运用情感分析技术,可以通过分析观众对电影的褒贬评价数据,预测电影票房成绩,也可以识别网购消费者对产品质量、价格、品质等属性的评价,还可以统计政治选举中不同政党的支持率,预测选举结果等。通过情感分类技术对信息进行归纳处理,能够使互联网资源得到更加充分的利用,可以发现商品的特定感情色彩信息,掌握用户的消费习惯,分析总结热点事件的舆情,从而为个人、企业、政府等提供重要的决策依据。

近几年来,学术界的许多学者对于情感分类也保持了高度的关注,情感分类成为了自然语言处理和信息检索领域的热点研究问题。最近几年在Conference on Information and Knowledge Management(CIKM)、Association of Computational Linguistics (ACL), Special Interest Group on Information Retrieval (SIGIR), Knowledge Discovery and Data Mining(SIGKDD)等国际顶级会议上,许多学者发表了有关情感分类的文章,取得了丰硕的成果。相对于英语,中文情感分析研宄起步较晚,但也已取得了许多研宄成果,国内的许多学术会议都收录了相关论文并对该领域保持高度关注。

Pang、Lee等人在情感分类中引入机器学习方法对电影评论进行情感分类,对于文本的N元句法和词性等特征的选取,其使用了基于词袋的框架,采取多种分类器结果比较的方法,通过SVM、Bayes、最大熵分类器,进行情感分析比较,实验表明,支持向量机在文本分类任务中取得了较好效果。Wang等人通过对情感词和程度副词的选择最终形成特征库,然后通过贝叶斯算法对文本进行情感分析。Gamon对于文本情感特征抽取问题,采用了特征融合的方法,并且在有噪音干扰的条件下,对评论数据集的情感分类任务中,取得了较好的分类效果。Wei Jin等主要对机器学习系统进行了相关的研究工作,完成了情感词自动抽取以及情感倾向性分类。刘志明等使用不同的机器学习算法、不同的特征选取算法及相应的特征权重计算方法对微博的评论文本进斤了情感分类。Li将文本分为个人情感文本的和非个人情感文本的两类来进行半监督学习分类。Dasgupta通过谱聚类方法查找容易区分的文本。然后利用主动学习方法为不容易区分的文本手工标注。最后通过迁移学习的方法完成情感分类。

由于中文的复杂性及语法的独特,国外专家及研究机构等研究情感分析的技术和资源都不能直接用于处理中文,而需要根据中文的专属特性来定向研究。Wan针对标注的英文语料和没有标注的中文语料进行协同学习,综合两种语料来提高中文情感分类的效果。基于无监督的情感方法不需要标注文本,而早前无监督分类研究多数是根据带有情感的种子词集进行标注。Tumey提取出文本的关键词,利用点互信息计算其与种子词的相似度,从而判别情感倾向。Kennedy通过计算文本中褒义词个数与贬义词个数的比值来判别情感倾向。Zagibalov针对点互信息方法难以获得大规模的情感词信息的问题,在Turney研究基础上深入分析文本特征,引入迭代机制来提高情感分析的准确度。Lin和He通过LDA文档主题生成模型基于文档与词之间共同出现关系获得没有标注样本标签。

{title}

2. 研究的基本内容与方案

{title}

1.研究的基本内容

(1)文本预处理

文本预处理,就是过滤文本中的不具备实际意义的词汇,得到任务模型所需的文本格式,对于机器来说,现在它只是一个不透明的字符串值。为了能够让机器识别,就需要经过句末检测、切词、词性标注、分块、提取等过程。

(2)文本向量化表示

文本是一种非结构化的数据,由大量字符构成,计算机无法直接处理字符类型的数

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图