关联规则挖掘系统的设计与实现文献综述
2020-05-01 08:50:10
条码技术及数据仓库的发展使得数据收集和存储变得十分简便与频繁,由此也逐渐累积了海量的数据,尤其在商业和科研领域。譬如一家大型商场每天的销售记录就能达到上万。长此以往,海量的数据便被存储下来。人们在收集存储数据的时候也许有着自己的目的,亦或者没有明确的目的,只是先收集起来再说,但无论如何这些海量的数据一直被存储起来了。
然而,传统的数据分析技术很难对这些海量的数据进行分析处理,存在着种种局限性。而数据挖掘技术突破了这些局限。它并非完全脱离原有数据分析领域,而是以传统分析技术为基础。数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合处理海量的难以用传统手段处理的数据。
从功能上可以将 数据挖掘的分析方法划分为以下四种:关联分析(Association rules);序列模式分析(Sequential Patterns);分类分析 (Classifiers);聚类分析(Clustering)。关联规则挖掘算法是一种重要的数据挖掘方法。
关联规则最开始是针对购物篮分析问题提出的。例如,在商场的顾客购物数据中,发现80%的购买尿布的顾客都会购买啤酒,商场则可以根据这个发现新的商机,这种数据被称为“篮子数据”。当然关联分析也可以用力其他领域,如医疗诊断,科学数据分析等。
当今时代早已步入大数据时代,长久累计的数据等待这我们去分析处理。而传统手段却无法处理这种新型数据类型。因此数据挖掘技术对于当今时代而言是一种重要而又常用的数据分析技术。关联规则挖掘在数据挖掘中占据着重要的位置, Agrawal等人于1993年首先提出了挖掘客户交易数据库中项集间的关联规则问题。关联规则挖掘是数据挖掘中最活跃的研究方法之一,因此掌握关联规则挖掘技术是学习数据分析处理的必须掌握的技术。
Apriori算法:
Apriori算法是第一个关联规则挖掘算法,它开创性的使用基于支持度的剪枝技术,系统的控制候选集的指数增长。其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。Apriori算法应用广泛,也有很多由其衍生出的挖掘算法,但其根本思想不变。因此此次以Apriori算法为系统核心算法。
本次毕设旨在学习关联规则相关的算法同时开发出一个关联规则挖掘系统,能实现对输入数据进行关联分析,通过算法得到关联规则,最后查阅相关资料验证关联规则的正确性与否。
{title}2. 研究的基本内容与方案
{title}本系统主要有一下三大基本内容: