登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 计算机科学与技术 > 正文

基于Spark的频繁项集挖掘算法并行化研究开题报告

 2021-12-30 21:25:39  

全文总字数:1464字

1. 研究目的与意义及国内外研究现状

项集挖掘自首次提出以来,因其具有较高的时间复杂度,引起许多国内外的研究者们致力于提高相关算法的性能。尤其是随着大数据时代的到来,传统的频繁项集挖掘算法往往受限于单台计算机有限的计算能力和存储容量,无法满足用户对于处理更大规模的频繁项集挖掘问题的迫切需求。

联规则挖掘是数据挖掘研究领域中的一个重要任务,旨在挖掘事务数据库中有趣的关联。Apriori算法是关联规则挖掘中的经典算法。然而Apriori算法存在着产生候选项目集效率低和频繁扫描数据等缺点。此次设计旨在与对Apriori算法的原理及效率进行分析,指出了一些不足, 并且了改进Apriori算法。使该算法基于新的数据结构, 改进了产生候选项集的连接方法,已提高其工作效率 。

国内外研究现状

1993 年, 美国著名学者R. Agrawal等人首次提出了挖掘布尔关联规则,之后提出了著名的基于频繁项集的 Apriori[1] 算法。关联规则挖掘最初仅限于事务数据库的布尔型关联规则,近年来广泛应用于关系数据库,因此,积极开展在关系数据库中挖掘关联规则[2] 的相关研究具有重要的意义。近年来,已经有很多基于 Apriori算法的改进和优化信息科技发展如此迅速的当今社会,大数据来临的时代。传统的频繁项集挖掘算法已经无法满足用户需求,而基于Spark的大数据框架优化传统的频繁项集挖掘算法,使Apriori算法能够适用于大数据关联规则的挖掘.该算法利用Spark基于内存计算的抽象对象存储频繁项集,通过引入矩阵概念减少扫描事务数据库的次数,应用局部剪枝和全局剪枝方法缩减生成候选频繁项集的数量.通过搭建Spark平台实现该算法,并与传统Apriori算法和基于Hadoop的Apriori算法进行性能上的比较。结果表明,该算法能够较大程度地提高大数据关联规则挖掘的效率 。

2. 研究的基本内容

Apriori算法是一种寻找频繁项集的基本算法,其基本原理是使用一种称作逐层搜索的迭代方法, 即用 k项集去探索(k 1) 项集。Apriori算法使用频繁项集性质的先验知识, 首先找出频繁 1 项集的集合, 该集合记作 L1。L1用于找出频繁 2 项集的集合 L2, 而 L2 用于找出 L3,如此下去, 直到不能找到频繁 k项集。为了提高频繁项集逐层产生的效率, 将一种称作 Apriori性质[2] 的重要性质应用到该算法, 而本课题本课题将基于Spark平台针对Apriori的不足进行优化改进处理试求得出一种新进的算法。

3. 实施方案、进度安排及预期效果

本课题的实行方案:前期研究设计目的和意义、进行需求分析、相关文献和实例的研究、学习使用Hadoop框架并搭建好Spark环境;中期进行Apriori算法进行实际应用后进行改善优化;后期进行具体编程实现、调试和测试。

目前进度:进行了前期的各项进度,总体结构设计正在学习进行中。预期效果:能够对一个大型数据进行分析,并将分析结果呈现出来。

4. 参考文献

[1]黄美灵,Spark MLlib机器学习:算法、源码及实战详解[M]电子工业出版社,2016.

[2]刘鹏,实战Hadoop:开启通向云计算的捷径[M].电子工业出版社,2011.

[3]李玲娟,张敏.云计算环境下相关规则挖掘算法的研究[J].计算机与发展,2011 .

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图