文章详情_毕业论文网

登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文章详情

大数据环境下的数据挖掘及其应用研究开题报告

 2022-01-07 21:03:09  

全文总字数:4396字

1. 研究目的与意义(文献综述)

二十世纪,数据库技术取得了决定性的成果并且得到广泛应用。大量信息在给人们带来方便的同时也带来了一大堆难题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。人们开始提出一个新的口号:“要学会抛弃信息”,并开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”如何从含有海量信息的数据库中提取潜在、有价值的信息来辅助决策,预测未来成为信息处理的更新更高的要求,知识发现和数据挖掘技术应运而生,显示出强大的生命力。数据挖掘使数据库技术进入了一个更高级的发展阶段。

数据挖掘技术(data mining)被称为未来信息处理的骨干技术之一,是一个多学科交叉研究领域,融合了数据库、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索,高性能计算以及数据可视化等多项最新技术。数据挖掘技术从80年代末开始出现。短短二十多年它的发展速度很快。目前数据挖掘技术在零售业的购物篮分析、金融风险预测、产品质量分析、通讯及医疗服务、基因工程研究等许多领域得到了成功的应用。很多专题会议也把数据挖掘和知识发现列为议题之一。

自1989年第11届国际联合人工智能学术会议上首次提出kdd这一概念以来,数据挖掘日益受到人们的关注。并已经成为当前计算机领域的一大热点,其研究的重点也逐渐从发现方法转移到系统应用,并且注重多种发现策略和技术的集成,以及多学科之间的相互渗透。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

机器学习是人工智能的一个分支,机器学习被用来使应用程序能够从可用的数据集中做决策。机器学习和数据挖掘结合起来可以用来开发垃圾邮件识别器、人脸识别和在线交易中的欺诈行为识别。总的来说,机器学习算法可以分为有监督机器学习和无监督机器学习两大方面。

本文主要研究如何利用社会生活中的一些大数据集,用分类、回归和聚类讨论数据分析的结果和实际意义,还将讨论如何基于r和hadoop执行机器学习算法以克服内存问题。在有监督机器学习方法上,主要构建logistic算法模型处理因变量有多个可能取值的情况;同时,将数据集用无监督机器学习中的kmeans算法进行聚类以比较两者的不同,挖掘数据的实际应用价值。技术设计方案如下:

第一步,确定挖掘对象、目标。清晰地定义出问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不可预测的,但要探索的问题应是有预见的。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

2020.1-2020.2查阅相关资料,确定论文主题

2020.2-2020.3阅读国内外相关文献,学习数据挖掘的理论模型

2020.3-2020.4数据挖掘常用技术研究以及r语言学习

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1] vignesh prajapati. big data analytics with r andhadoop[m]. packt publishing, 2013.

[2] luis torgo. data mining with r[m]. chapman andhall/crc, 2010.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图