基于大数据平台Spark的人物行为分类算法的开发开题报告
2021-12-19 18:47:00
全文总字数:2429字
1. 研究目的与意义及国内外研究现状
随着大数据时代的到来以及信息技术的不断发展,人们每天在网络上上传或者下载大量的视频图像文件等,其中包含着巨大的信息需要处理。因此,如何让计算机像人类一样智能地分析这些信息并有效地反馈给系统是大数据研究的重大挑战之一,其中,完成基于视频的人类行为识别也是当前视频分析的重点方向之一。
传统的算法在解决这些数据集较大的视频中的人类行为识别的问题时,耗费时间长,结果不精确。为了能够在大数据环境下实现图片分类,人类行为识别等功能,就需要利用大数据处理平台spark。主要研究目标是在上面合理建立分布式处理框架来快速有效地达到要求。spark是能够合适地用于机器学习等需要迭代的mapreduce的算法的分布式处理工具,可以被人们利用开发来解决大数据处理的相关问题。
由此,视频中的运动着的人类的行为能够在数据爆炸式产生的环境下被识别出来,这在社会的很多领域,如安防系统,医学研究,体育测试中有着很高的利用价值,对于整个社会的发展有广泛的应用价值。同时,这也对大数据环境下的计算机视觉的相关机器学习技术的发展起到了推动作用。
2. 研究的基本内容
本毕设将会开发一种基于大数据处理平台spark的分布式计算框架,从而实现基于bow的人类行为识别。这个框架主要由三部分组成,分别为特征提取,基于mapreduce bow模型的特征向量处理模型和分类模型。首先,需要对视频进行预处理,将每一个视频中的行为特征向量提取并以文本文件的形式保存下来。然后将这些文件上传到hdfs上面,方便分布式环境下的读取。接着,通过mapreduce bow模型可以得到每个视频文件中特征向量的柱状图。最后通过svm分类器,训练出一个分类模型,得到每次分类的精度。
其中,mapreduce bow模型主要由两部分组成。第一,通过利用spark中的kmeans算法可以得到特征向量的聚类中心点。在处理大数据问题时,kmeans具有较低的时间复杂度。第二,归一化处理主要由两部分reduce过程组成。第一次reduce过程,通过计算每一个特征向量距离聚类所得中心点的最短距离,将视频文件转换成由中心点标志组成的文件。第二次reduce过程将中心点标志作为key,对转换后的文件做wordcount的处理,最终得到每个视频文件的柱状图。
在分类模型中,将添加标签之后的归一化的结果作为svm分类器的输入来训练出一个分类模型,然后将新的视频的数据集进行预处理之后输入到分类模型中,得到模型的预测精度。
3. 实施方案、进度安排及预期效果
本毕设需要在阿里云服务器上搭建Hadoop和Spark分布式平台。其中一台服务器作为master,其余服务器作为slave。用来实验的数据集来自视频文件中的一系列的行为特征向量。80%的数据集用来训练,20%的数据集用来预测。
为了能够有效合理地进行实验,首先要选择数据集,然后对数据集进行处理,得到特征向量组成的文件,接着进行实验,通过对实验结果的比较,不断调整实验中参数的选择,以及处理的方法,使得实验结果变得更加精确。
4. 参考文献
[1]zaharia,m.,chowdhury,m. spark:cluster computing with working sets.proceedings of the secondusenix conference on hot topics in cloud computing.ieee,2010.
[2]dean,j., ghemawat, s. mapreduce: simplified data processing on large clusters.communications of the acm, 51.1(2008), 107-113.
[3]shvachko,k., kuang, h. the hadoop distributed file system. mass storage systemsand technologies (msst), 2010 ieee 26th symposium on.ieee,2010.