自适应关键帧提取算法毕业论文
2020-04-12 08:49:33
摘 要
近年来,由于视频媒体被应用于多个行业与领域,视频所蕴含的信息量急剧增加。繁复的视频数据引发了对视频数据检索功能的需求,为解决这一问题,我们提出关键帧这一图像概念来表述镜头主要的内容,可将其作为有效的视频索引参量,降低视频检索工作复杂度,减少冗余信息,帮助快速全面了解视频内容。为了提高检索的效率,减少索引视频时需要的劳动力成本,本文探讨并研究了几种具有自适应能力的关键帧提取算法,比如基于抽样、基于聚类分析、基于内容、基于镜头分割以及基于运动分析的关键帧提取算法。重点完成了以HSV特征向量的基于内容的关键帧提取、以灰度差分为主要思想的基于镜头分割的关键帧提取、K-means聚类算法的关键帧提取,并采用不同种类视频对比评估了不同算法的性能。
关键字:视频关键帧,k-means算法,颜色直方图,镜头分割
Abstract
With the development of video media used in various fields, the amount of information contained in video has increased dramatically. A wide range of video data has caused the demand for video data retrieval. The fream named video key fream can represent the significant content of a video shot. It can be used as an effective video index parameter to reduce the complexity of video retrieval works, reduce redundant information, and help to understand video content quickly and comprehensively. In order to improve the efficiency of indexing and reduce the artificial cost in video retrieval, we have studied several adaptive key frame extraction algorithms. And mianly talked about the key frame extraction based on the content based HSV feature vectors, the key frame extraction based on the shot segmentation and the key frame extraction based on the K-means clustering algorithm.At last,we evaluate the performance of the algorithm through different kinds of video contrastly.
Key words: video ,key frame ,K-means algorithm ,color hist,shot segmentation
目 录
第1章 绪论 1
1.1 研究的目的及意义 1
1.2国内外研究现状 1
1.2.1基于抽样的方法 2
1.2.2基于镜头分割法 2
1.2.3基于图像内容的特征提取法 2
1.2.4基于运动分析法 3
1.2.5基于聚类的方法 3
1.3本文的工作和内容 3
第2章 自适应关键帧提取算法原理 4
2.1基于HSV特征向量的关键帧提取算法 4
2.2基于运动分析的关键帧提取算法 6
2.3基于镜头分割的关键帧提取算法 7
2.3.1直方图镜头分割法 7
2.3.2边缘检测镜头分割法 7
2.3.3块匹配镜头分割法 8
2.4聚类分析法 9
第3章 自适应关键帧提取算法的具体实现 12
3.1准备工作 12
3.1.1视频结构划分 12
3.1.2 环境配置 13
3.2 HSV特征向量算法的实现 15
3.2.1 RGB-HSV颜色空间转换 15
3.2.2 颜色特征提取 15
3.3灰度块匹配的镜头分割算法的实现 17
3.3.1 RGB全彩图-灰度图转化 17
3.3.2 帧间距离计算 17
3.4K-means聚类算法的实现 18
3.4.1聚类相关参数计算 18
3.4.2聚类迭代过程 18
第4章 结果分析 20
4.1运行结果 20
4.2算法评估 25
第5章 结论 27
参考文献 28
致谢 29
第1章 绪论
1.1 研究的目的及意义
当前视频媒体应用广泛,从影音娱乐到监控安防,视频媒体可以应用于诸多行业:视频影音能够记录事件,也可以作为记录时代特征的素材;街头一个个视频监控摄像头连接起了“天网”工程,其记录的内容为维护社会治安与公平正义提供了佐证;在汽车中,我们安装行车记录仪,可以有效记录行车状况应用于出现纷争时的路况与责任分析;商场内,监控记录仪可以应用于防盗,也可以安放在餐馆厨房,展示“透明厨房”保证食品卫生安全。视频记录了不同行业不同时间的多样内容,随着视频媒介在各种行业中的发展与应用,其中所包含的信息量也急剧增长。而由于视频信息往往体量庞大,冗杂信息多,如何提取信息、分析视频内容成为了当前亟待解决的问题。如通过顺序播放人工观看内容建立索引,对人工要求较高,费时且易因大体量的内容需求审阅导致人工搜索出现错漏等失误。也正是因此,当前对于视频图像分析以及视频内容提取技术的需求进一步的提高。
在研究视频信息提取方法时,我们通过对视频信息进行细化可以引出场景,镜头与帧的概念,视频检索主要通过场景与镜头分割,提取可以代表镜头关键信息的帧作为索引:
视频由数千个帧组合而成。视频数据流中时间为t的图像帧和t 1时刻的帧在视觉特征和内容方面没有很大的不同。从冗余帧中提取的关键帧可以减少帧间的冗余信息,表达出视频的意义并反映视频的主要内容。比起人工查阅。节约了劳动力花费在视频观看上的时间。并且,为了满足短时间内了解视频信息的需求,用户可以依照关键帧的底层信息来设置索引,这样做能便于人们查询视频内容。视频关键帧的提取遵循两个原则,一则是减少所提取帧的数量;一则是尽可能反应最丰富的视频内容,实现这两个条件是视频索引技术的首要准则。如何解决关键帧提取问题是目前相关行业广泛关注的话题。迄今为止,研究人员已经提出并实现了多种关键帧的提取算法。
1.2国内外研究现状
关键帧的提取是搜索视频内容的重要步骤,也是当下视频检索研究工作探索的重点。尺度不变特征转换(Scale-invariantfeaturetransform,SIFT)是用于图像处理领域的一种描述子,由DavidLowe最早提出。这种描述具有尺度不变性,可在图像中检测出关键点,是一种局部特征描述子。GUAN[1]等人在2013年使用SIFT描述符从视频图像中提取关键帧,这样的提取算法可以囊括全局关键帧,但会出现冗余现象。基于内容的图像检索(content-based image retrieval)概念在1992年就已经被国际广泛关注,同时对基于内容的视频检索(content-based video retrieval)的研究也展开。第一代视觉信息检索系统是基于关键字访问图像和视频,由于标引内容常无法完全匹配,导致其搜索效率与索引成功率较低。第二代视觉信息检索系统支持基于内容的检索,即对视觉信息的访问不仅利用概念层的关键字进行。系统自动对数据库图像进行分析,提取特征从而提供在线查询时所需的多维索引。季春[2]基于内容分析确定镜头中最具代表性的帧,关键帧从低层的感知描述到高层的语义描述,说明了在每个含义层上的镜头要点。白[3]等人使用层次聚类的方法获取初始聚类结果,并利用人工免疫聚类方法对聚类结果进行优化获取关键帧。Kuanar[4]等人在2013提出了一种通过动态Delaunay图聚类并迭代修剪边缘的关键帧提取算法,可以捕获更多信息帧。
整体关键帧提取的方法思路较多,不同思路设计出的算法具有较大差异。目前国内外已提出的关键帧提取思路可以归类为以下几种[5]:
1.2.1基于抽样的方法
基于抽样的关键帧提取是一种相对而言较为基础低效的方法。该方法通常通过随机提取来确定每个镜头的帧数,或者通过人工定义的间隔来提取关键帧。这种方法能够有效地表达视频内容,但是不具有自适应性,所抽取关键帧呈现出随机性,无法达到概括视频内容,去除冗余信息的功能。
1.2.2基于镜头分割法
这种方法考虑将镜头中的第一张和最后一张图像分割出来当做该镜头的关键帧。 基于镜头中邻近的帧之间的差异较小这一思想,选用第一帧和最后一帧用于表示镜头内容。这种方法很简单,但没有过多考虑当前所处理视觉内容的复杂性,并且限制了关键帧的数量,使得不同长度的镜头获得相同数量的关键帧,这可能会导致丢失应有的信息或者是导致提取到的关键帧不能完全表示镜头信息。
1.2.3基于图像内容的特征提取法
该方法首先提取当前待提取视频的全部帧,然后通过使用所选择的邻近帧间特征(大部分为帧图像的色彩信息,帧图像纹理信息,帧图像的亮度信息等)来比较镜头当前帧与上一个被断定是视频中关键的图像,并计算与下一帧和当前帧对应的特征量的差。如果有特征发生了较大的变化(即大于预定阈值),则将当前帧保存为新的关键帧;然后将新的关键帧与下一个当前帧依照先前步骤做对比,直至找到下一个关键帧。这样的方法可以针对不同的视频镜头自动提取不同数量的关键帧,并且提前到的关键帧之间的颜色也大不相同,色差符合关键帧提取原则。然而,这种方法对相机的运动偏移不敏感,例如相机位置由于镜头拉伸而产生的焦距变化,或者相机镜头的偏移、转变,这些偏差都无法量化,从而会影响到关键帧的提取。
1.2.4基于运动分析法
这种方法是由wolf提出的。其准备工作是分离视频镜头,通过光流分析计算每个镜头中的运动量,并在局部运动最小的地方提取相应的关键帧。在算法的具体实现中,由摄像机运动引起的图像变化可以被划分为两类:一类由摄像机的角度变化引发,另一类是摄像机焦距的变化引起的。对于前一种类型,如果当前帧与前一帧相似部分小于设定阈值,则将其选作一个关键帧;对于后一种类型,直接选择第一帧和最后一帧作为关键帧。
这样,参考视频中的静止物体可以引起视频场景或视频内容的变化,这对摄像机的位移的影响更敏感。然而,由于这样的方法对计算量要求较高,总体算法比较复杂。
1.2.5基于聚类的方法
聚类是指按照一定的尺度(比如距离准则)将一个数据集划分为不相同的类或者簇,使得同一个类或者簇中的数据对象的相似度尽可能大,不同聚类之间的数据对象的差异尽可能大。这类方法在模式识别、人工智能以及语音识别和检索等领域有着广泛的应用。该方法具有较高的计算效率,能够有效地捕捉视频镜头的视觉内容。在提取低活动镜头时,会适应性的提取少量关键帧,在提取高活动镜头时则可以基于视觉上镜头的复杂度适应性的多提取几个关键帧。
1.3本文的工作和内容
本论文主要研究几种自适应关键帧提取算法提出改进,并完成多种自适应关键帧提取算法的性能比较工作。
第1章为绪论部分,主要在分析研究的背景及意义,研究学习领域内具有自适应性的关键帧提取算法的内容分类与成果。
以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。
相关图片展示: