Aproiri并行算法的应用研究开题报告
2020-04-26 11:51:55
1. 研究目的与意义(文献综述)
数据挖掘是一个知识发现的过程,通过一定的算法获取隐藏于数据背后的规律。在互联网行业盛行的今天,大公司积累的数据量巨大,例如国内百度已经达到数十 pb 的规模。单机串行挖掘已经逐渐退出企业级应用的舞台,海量数据挖掘系统成为了新的发展趋势,这样才能为企业提供更好的决策支持。
在国外,angoss 公司开发了一款数据挖掘软件名为 knowledge studio,其特点在于快速获取到频繁集合并可以引入外部数据挖掘模型。由于响应时间短,模型便于理解,很快得到市场认可。ibm 公司开发了新一代数据挖掘软件名为 ibm intelligent miner,其主要优点为完整展现数据挖掘中的数据选择、格式转化、模型挖掘以及结果展示的过程。spss 作为最成熟的统计软件之一,深受到数据分析师和研究学者的偏爱,其后期融入的数据挖掘工具 clementine,由于整合了常见的智能算法,操作性和可视性也较高,因此收到了业界的一致好评。
在国内,阿里巴巴集团率先采用 hadoop 框架处理电商交易的后台数据
。百度则使用 hadoop 框架离线处理网页访问日志以及对搜索日志进行数据挖掘。中科院计算所利用开源 hadoop 框架,独立自主开发了一个名为 pdminer 的数据挖掘平台。它是国内最早基于云计算模式的数据挖掘系统,并与移动公司进行技术合作,应用于实际项目,成功地挖掘了高达 tb 级别的业务数据。
2. 研究的基本内容与方案
2.1研究目标
课题面向web数据挖掘领域,为了应对海量的web数据针,深入研究传统数据挖掘算法apriori算法,对hadoop平台的关键技术——mapreduce并行化的编程模型进行分析,探寻apriori算法的改进和并行化策略,预计实现以下几个目标:
(1)优化经典的传统apriori算法,改进运算过程中单机处理数据集、数据库频繁 io,候选集合生成繁多的问题,提升算法运行效率。
(2)深入学习mapreduce分布式并行运算技术,建立基于mapreduce分布式优化的apriori并行算法。
2.2研究内容
3. 研究计划与安排
3月1日-3月15日
完成开题报告和翻译
阅读15篇相关的论文,并写好每一篇论文的心得体会和摘要
4. 参考文献(12篇以上)
[1] 基于hadoop的关联规则挖掘算法分析_黄剑
[2] 基于aproiri算法的频繁项集挖掘优化方法_吴学雁
[3] hadoop平台上apriori算法并行化研究与实现_郝晓飞