排球赛视频中球场检测算法设计及实现毕业论文
2020-02-16 17:13:09
摘 要
在球类比赛视频分析中,球场检测起着重要作用。基本上所有关键事件的发生都在球场上,为了降低高层语义分析的难度并提高高层语义分析的准确性,检测出球场区域就尤为重要。目前的球场检测方法主要利用了球场的颜色特征,有较大的改进空间。
本文研究了目前的体育视频球场检测算法,设计了两种用于球场检测的算法并开展了相关实验,主要工作如下:
(1)基于主色提取的球场检测算法。利用球场像素在视频帧中占主要部分这一特点,通过处理视频帧的颜色直方图得到主色,去掉噪声区域后对得到的连通区域求凸包,检测到视频帧的球场区域。
(2)基于卷积神经网络的球场检测算法。通过区域建议网络搜索球场位置,并建立分类器,然后结合全卷积神经实现对球场像素级的分割。
(3)设计实验将两种算法应用于排球视频中,并比较两种算法的球场检测效果。
关键词:主色提取;卷积神经网络;球场检测;球场分割
Abstract
Sports game video playfield detection plays a key role in sports video analysis. In sports videos, almost all important events happen on the playfield, so detecting the playfield area can reduce the difficulty of semantic analysis and improve the accuracy of semantic analysis. The current playfield detection algorithms mainly utilizes the color characteristics of the playfield and have a large room for improvement.
This thesis studied the current sports video playfield detection algorithm, designed two algorithms for playfield detection and conducted related experiments. The main work of this paper is as follows:
(1) The playfield detection algorithm based on the main color extraction. This algorithm takes advantage of the fact that the playfield color is the main part of the video frame. The main color is obtained by processing the color histogram of the video frame. After removing the noise area, the convex hull of the connected area is obtained. Then we get the playfield area of the video frame.
(2) The playfield detection algorithm based on convolutional neural network. The algorithm searches the playfield position through the region proposal network, establishes a classifier, and then combines the full convolutional network to achieve pixel-level segmentation of the playfield.
(3) Designed experiments that applies the two algorithms to volleyball video, then compared the detection results of the two algorithms.
Key Words:primary color extraction; convolutional neural network; playfield detection; playfield segmentation
目 录
第一章 绪论 1
1.1研究目的及意义 1
1.2国内外研究现状 1
1.2.1非深度学习算法球场检测现状 1
1.2.2基于深度学习的球场检测现状 2
1.3本文所做的工作 2
第二章 基于球场主色提取的球场检测算法 4
2.1基于球场主色提取的球场检测算法总体设计 4
2.2球场主色检测 5
2.2.1 视频帧颜色空间选择 5
2.2.2主色特点 5
2.2.3颜色直方图主色提取 5
2.3主色噪声过滤 6
2.3.1图像局部熵 7
2.3.2基于局部熵的主色噪声过滤算法 7
2.4球场边界提取 10
2.5本章小结 10
第三章 基于卷积神经网络的球场检测算法 11
3.1迁移学习 11
3.2总体网络结构 12
3.2.1Mask-RCNN模型 12
3.2.2ROI Align 13
3.2残差网络 14
3.2.1残差网络的优势 14
3.2.2残差块 15
3.3RPN网络 16
3.3.1RPN网络介绍 16
3.3.2RPN网络的损失函数 16
3.4损失函数 17
3.5算法流程 17
第四章 实验及结果分析 19
4.1数据集 19
4.1.1数据集来源 19
4.1.2 视频帧的获取方法 19
4.2.3数据集的预处理 20
4.2.4数据集的划分 20
4.2基于球场主色提取的球场分割实验 21
4.2.1实验环境 21
4.2.2实验步骤 22
4.3基于卷积神经网络的球场分割实验 23
4.3.1实验环境 23
4.3.2实验步骤 24
4.4实验结果 25
4.4.1评价标准 25
4.4.2结果与分析 25
第五章 总结与展望 27
5.1总结 27
5.2展望 27
致谢 31
参考文献 28
第一章 绪论
1.1 研究目的及意义
体育视频分析,尤其是针对足球的视频分析,由于其受欢迎程度和潜在的商业价值,受到了广泛关注。体育视频分析有广泛的应用,如:内容检索和索引,语义事件突出和总结,以及对象识别和跟踪。在许多运动视频分析系统中,球场(或地标)检测通常是为进一步检测操作提供基础的第一步。在球类比赛视频分析中,提取比赛视频中的底层特征,然后直接获得高层语义信息难度较大,此时就需要构造中层特征,以此作为底层特征和高层语义信息之间的过渡。其中一个非常重要的中层特征就是球场,对球场进行分析解构可以让高层语义分析变得更加简单。在球类比赛视频中,球场往往只在视频帧中占一部分,因此检测出球场区域可以使高层语义分析聚集在该区域内,从而使球场以外的噪声干扰被排除掉,不仅可以降低视频分析的难度,而且能提高比赛视频分析的准确性。
Xie 等人[1~2]通过球场主色提取的方法实现对球场区域的检测,以此为基础,对足球比赛视频进行高层语义分析。Ekin 等人[3]提取比赛视频中球场的主色,通过主色在视频帧中的比率实现对视频帧的分类,区分比赛镜头和无关镜头。Utsumi 等人[4~6]利用球场区域检测结果,排除掉非球场区域的干扰之后,在检测到的球场中识别球和球员。Assfalg 等人[7]也利用了比赛视频球场检测的结果,然后对足球比赛视频作高层分析,并进一步实现了比赛中精彩片段的自动筛选。通过识别球场区域的位置,消除了来自非球场区域的噪声,使高层语义分析工作变得更加简单。
1.2 国内外研究现状
1.2.1 非深度学习算法球场检测现状
目前国内外对体育比赛视频中的球场检测研究有很多,大多数都采用统计方法估计球场像素的分布,该统计方法分为两种:非参数法和参数法。
对于非参数化方法,A. Ekinand等人[8]根据图像直方图计算游戏场的主导颜色,并使用与该平均颜色的圆柱形距离分割游戏场。A Le Troter等人[9]将颜色阈值和空间相干(连通分量)结合在一起进行了运动场检测。Gong等人[11]采用拉普拉斯算子通过用非白色像素减去这些边缘来提取边缘并在球场上找到线条。通过运用领域知识分析直线、圆和半圆之间的关系,识别出球场区域。
在参数化方法中,高斯混合模型(GMM)是最广泛使用的技术。基于单一高斯背景模型,混合高斯背景模型在球场像素分类中取得了不错的效果,应用也最为广泛。Luqiao Zhang等人[12]提出GMM检测球场,但参数不能通过自适应进行微调。单高斯模型用正态分布来表示背景,可以处理变化小、变化慢的简单场景,但不适用于背景变化大、像素值为多模分布的场景。因为当背景变化非常快时,背景像素分布不会从相对稳定的一个单峰正态分布逐步变化到另一个单峰正态分布[13-14]。因为背景像素是多分布的,根据多分布方法的思想,结合多个单模集用以反映复杂场景中像素值的变化。GMM结合多个单高斯函数来对复杂场景进行建模。GMM较好地表现了背景模型在复杂场景中的分布,在处理突变背景、噪声干扰等情况时表现良好。因此Y.Liu等人[10]引入了增量期望最大化(IEM),以使GMM适应球场随时间的变化。
研究人员通常使用柱状图来模拟球场色,Xie等人[1]还使用了HSI空间中的主导颜色来分析足球视频,他们首先详细描述了主色检测算法。作者利用了两种色彩空间,其中一种是控制空间,另一种是主空间。主颜色由柱状图中主区域的平均值表示。该算法计算圆柱形度量,以确定像素是否属于球场。Ekin等人[3]首次详细介绍了场地检测算法。在他们的工作中,作者使用了双色空间(空间可以从hsi、rgb和ycbcr等颜色空间中选择)。一种是基本的颜色空间,还有一种是控制空间,对颜色空间起着控制和补充的作用。在基本颜色空间中,使用球场色来检测球场区域。
1.2.2 基于深度学习的球场检测现状
2014年,Long等人[16]提出了全卷积网络(Fully Convolutional Networks),这是语义分割领域的开山之作,该论文推广了之前的CNN结构,将全连接层换成卷积层,在不带有全连接层的情况下实现了密集预测。这种结构使得分割图谱生成任意大小的图像成为可能,而且与图像块分类方法对比,也提高了语义分割的处理速度。后来这种网络结构几乎应用于所有图像语义分割模型中。
随后,关于图像语义分割方面的研究进展非常迅猛。2015年,Badrinarayanan 等人[17]提出的Segnet算法设计的用于道路场景语义分割的网络将最大池索引传输到解码器以提高分段分辨率。2016 年提出的DeepLabv2[18]使用atrous卷积,也就是后来的空洞卷积,在扩大感受野的同时保持分辨率。并提出了atrous spatial pyramid pooling (ASPP)用来整合多尺度信息。然后使用全连接条件随机场(fully connected CRF)进行后处理,提高了准确度。2017年,PSPNet[19]采用了池化金字塔模型,使用池化金字塔(pyramid pooling)整合上下文(context),并采用了补充损失(auxiliary loss)。
1.3 本文所做的工作
球场检测对体育视频分析至关重要,但存在一些干扰,特别是图像信息的变化(如球场的颜色模式和光照等因素)给球场检测带来了很多挑战。此外,图像中观众区的干扰也使整个过程更复杂。在系统分析了现有的球场检测算法之后,本文设计了以下两种算法,并将两种算法作对比:
- 基于主色提取的球场检测算法。采用图像直方图模拟球场颜色分布,对球场进行主色提取。基于区域增长算法,过滤掉主色区域中的干扰区域后,计算剩下区域的凸外边界,得到球场分割结果。
- 基于卷积神经网络的球场检测算法。通过区域建议网络搜索球场位置,并建立分类器,然后结合全卷积神经网络实现对球场的像素级的分割。
第二章 基于球场主色提取的球场检测算法
球场检测作为对球类比赛视频进行分析的基础,是后续对体育视频进行高级分析的首要条件。
2.1 基于球场主色提取的球场检测算法总体设计
本算法利用了排球比赛体育视频的重要特性,即排球场色彩在体育视频帧中占主导地位。该算法首先提取视频帧中排球场的主色,进而得到主色区域,然后过滤掉主色噪声从而优化主色提取的结果,最后将该区域的凸外边界作为球场边界。
算法流程如图2.1:
图2.1 基于球场色提取的球场检测算法流程图
2.2球场主色检测
2.2.1 视频帧颜色空间选择
颜色模型对成像条件变化(如视图方向、对象几何体、照明方向、照明强度和照明颜色)的鲁棒性较低。由于在体育视频中上述一些成像条件可能会发生变化,因此选择对上述条件变化具有鲁棒性的颜色空间非常重要[27]。
在体育比赛视频分析中,常用于球场区域提取的颜色空间是色相饱和度的变量,如HSI、HSV和RGB。Gevers和Smeulders[20]总结了不同颜色空间的局限性。他们的研究表明,与强度(intensity)相关的颜色模型,如YCrCb的Y和La*b*中的L,以及RGB的线性组合(如I1I2I3),是关于普通成像条件的变量。而归一化颜色空间(如rg、CrCb)是关于照明颜色、高光和反射情况的变量,关于观察方向、表面方向、照明方向和强度是不变的。
本章的算法选择YCrCb颜色空间,然后提取每个像素中的Cr、Cb分量作为样本值。选择CrCb分量主要考虑到以下两点:
1)目前广泛使用的视频压缩标准都采用了YCrCb空间,选择该空间可以避免转换颜色空间,提高计算效率。
2)去除亮度信息(Y)的CbCr能更好地描述运动场区域的颜色特征,减少阴影、光线和其他对亮度敏感的因素对结果的影响。
2.2.2主色特点
在含有球场的排球比赛视频帧中,球场色作为主色,分布具有比较明显的特点。本章算法主要利用了主色(即球场色)在排球视频帧中的以下两大特性:
- 空间聚集性
除了少部分观众席上的噪音外,主色主要集中在球场区域内,而且基本上是互相连通的。
- 像素比重大
球场像素(主色)数量很多,在视频中比例很大,而且与主色颜色相似的像素数也非常多。
2.2.3颜色直方图主色提取
全局颜色直方图统计了整个图像的颜色分布,考虑到排球比赛视频帧主色特点2(像素比重大),反映到颜色直方图上就是该直方图在CbCr空间中有一个明显的聚类区域。即排球比赛视频帧的全局颜色直方图的峰值像素与其他像素相比,数量非常多,并且峰值像素附近的像素与峰值像素较为相似。
算法2.1 基于颜色直方图的主色提取算法 |
|
综上所述,本文从颜色直方图中确定主色区域,它对应于帧中的球场区域。程序描述如算法2.1。
该步骤效果如图2.2、图2.3所示:
图2.2原始视频帧
图2.3二值图firstMask
2.3 主色噪声过滤
利用球场的颜色特征可以提取到对球场的粗略估计图,但是视频帧中可能会含有和主色像素相似的像素,如广告牌、观众的衣服等,这些都会对主色提取算法造成干扰。因此必须过滤掉主色提取二值图中的噪声。
球场色像素区域往往具有较大面积,二值图中面积较小的连通区域通常为噪声,需将其过滤。其次,球场区域与非球场区域的纹理特征往往不同,本文引入局部熵获取图像的纹理特征移除干扰像素。
2.3.1 图像局部熵
与信息熵类似,图像熵表现了图像的“混乱”程度。局部图像熵越高,说明该区域的相似性越低[26]。图像熵的计算方式如公式2.1、2.2:
(2.1)