Kmeans(或SVM)在Spark的分布式设计与实现毕业论文
2022-05-27 22:44:03
论文总字数:31261字
摘 要
在这个信息爆炸的时代,互联网大数据呈指数式上涨,由此怎么从这些数据中发掘出具备价值外延的信息成了一个重要的课题。以往人们在传统的计算机上进行数据挖掘耗费了大量的人力物力,但是并没有十分好的效果,当然也无法满足商业发展需求。通过搭建云计算平台,使用并行计算方式解决传统计算机单机无法解决的问题让人们尝到了甜头。
数据挖掘中对数据分组一般都采用聚类分析的手段。在互联网文档分类、生物学,图像处理,抑或是在商业领域,聚类分析都有广泛的应用。KMeans算法是聚类分析中最为经典的方法。
KMeans算法的聚类目标为:相似度相近的在同一组,相似度较远的不在同一组。由此可见KMeans算法需要一个获得一个参数k,再把用户输入的n个对象分成k个类别。
美国伯克利大学的AMP实验室开发出与Hadoop MapReduce框架相似的并行计算框架Spark。该框架具备Hadoop MapReduce的全部优点,不同的是Spark不需要将任务执行过程中产生的中间结果输出到HDFS上,取而代之的方法则是保存在内存中,这样做的结果就使得Spark非常适合需要迭代的计算,例如KMeans算法。
在本次的毕设中,我主要是熟悉使用了linux/OS X,搭建了一个Spark大数据计算的平台,并在这之上实现了一个例子。这个例子是将一段Twitter文本作为分析数据,建立文档-词项矩阵,使用词云展示文档中的关键词。最后,对词和推文进行聚类分别找出词和推文的分组。
关键字:KMeans聚类算法 Spark计算框架 OS X/Linux系统
Distributed design and implementation of KMeans in Spark
Abstract
In this information explosion era, the Internet big data is exponential rise, how to discover the value of the extension of the information from these data has become an important issue. In the past, people who pick data mining on the traditional computer consume a lot of manpower and resources, but do not have good effects, of course, can not meet the commercial development needs. By building a cloud computing platform, using parallel computing to solve the problem that the traditional computer can not solve let people taste the sweetness.
Data mining usually use the method of clustering analysis to cluster data. In the Internet document classification, biology, image processing, or in the commercial field, clustering analysis has a wide range of applications. So far, there are six methods of clustering. Based on hierarchical, density based, grid based, model based, and fuzzy clustering. As the classical method of clustering analysis, KMeans algorithm is a clustering algorithm based on partition.
The clustering target of KMeans algorithm is that the similarity is similar in the same group, and far from the other in the other group. This shows that the KMeans algorithm needs a parameter K, then the user inputs n objects into k classes.
AMP laboratory in the University of America, Berkeley, developes a parallel computing framework Spark which is similar to the MapReduce Hadoop framework. The framework has all the advantages of Hadoop MapReduce, difference is spark does not require the task execution generated in the process of intermediate results output to the HDFS, instead is stored in memory which makes spark very suitable for iterative calculation, such as KMeans algorithm.
In the graduation project, I am mainly familiar with the use of Linux/OS X, built a large data Spark computing platform, and in this case to complete an example. This example is a section of Twitter text as the analysis of data, the establishment of document - term matrix, the use of word cloud display keywords in the document. Finally, the clustering of words and tweets is carried out to find the grouping of words and tweets.
Keywords: KMeans Spark Linux/OS X
目 录
摘 要
目 录
第一章 引言
1.1研究背景 1
1.2研究意义 1
1.3研究现状
第二章 Spark以及KMeans介绍 4
2.1 Spark内存大数据计算框架简介 4
2.2 Spark基本工作流程 7
2.3弹性分布式数据集(RDD) 8
2.4 KMeans简介 11
第三章 搭建环境 13
3.1集群环境介绍 13
3.2开发环境介绍 22
第四章 案例实现 24
4.1数据介绍以及处理 24
4.2 KMeans代码编写 30
4.3运行结果 32
结束语 37
参考文献 38
致 谢 40
第一章 引言
1.1 研究背景
在这个信息爆炸的时代,互联网大数据呈指数式上涨,由此怎么从这些数据中发掘出具备价值外延的信息成了一个重要的课题。以往人们在传统的计算机上进行数据挖掘耗费了大量的人力物力,但是并没有十分好的效果,当然也无法满足商业发展需求。通过搭建云计算平台,使用并行计算方式解决传统计算机单机无法解决的问题让人们尝到了甜头。
数据挖掘中对数据分组一般都采用聚类分析的手段。在互联网文档分类、生物学,图像处理,抑或是在商业领域,聚类分析都有广泛的应用。KMeans算法作为聚类分析中最为经典的方法。
请支付后下载全文,论文总字数:31261字