科技通报

复杂场景下面向时空模糊性的人体动作检测方案

点击数:10    日期:2016-10-24 08:55:21

与严格受控环境下传统的人体动作检测不同,进行复杂场景下的动作检测时由于背景带有噪声、人体遮挡和跟踪不全导致空间和时间边界存在时空模糊性
  

 摘 要: 与严格受控环境下传统的人体动作检测不同,进行复杂场景下的动作检测时由于背景带有噪声、人体遮挡和跟踪不全导致空间和时间边界存在时空模糊性。现有的动作检测方案无法有效解决这一问题,为此,首先采用运动历史图像特征和外观特征对人体运动进行区分,然后将一个动作的候选区域看成是一个实例包,提出模拟退火多实例学习支持向量机(SMILE?SVM)算法实现人体动作检测。仿真结果表明,该算法在公共的CMU运动数据集上的性能优于现有算法。另外,还提出了一种超市客户意图检测系统,可检测拥挤的超市中客户是否有意从货架上取货,对于商家研究客户兴趣具有重大价值。
关键词: 人体动作检测; 时空模糊性; 运动历史图像特征; 外观特征; 多实例学习
本文引用《现代电子技术
0 引 言
当前大多数人体数据集中,人体动作往往采集于无噪背景下,每个视频片断往往只包括一种动作(比如快跑或慢跑)和一个人体,且人体在整个视频片断中只有这一种动作。然而,在实际的监视场景中,背景往往带噪,监视系统必须要从人群中检测出感兴趣的目标人体动作。
在背景带噪或人群部分遮挡等复杂场景下,进行人体准确定位的难度很大[1?2]。若没有人体交互,从复杂场景中修剪一个对象往往会导致严重的错位或偶尔的漂移,此外,还可能存在时域模糊性。真实世界中的大部分动作只发生一次且持续时间很短。而人体动作是连续的,动作属于同一种类别但速度可能有巨大差异,所以难以确定这些目标动作的起点或终点,以及真实世界中每个动作的持续时间。另外,未检测到快跑和慢跑等重复性动作在时域的模糊性,但这些模糊性可能严重影响捡东西、拍照、按下电梯按钮等非重复性动作的检测性能。这些空间和时间模糊性大大增加了动作检测的难度。
为了克服这些模糊性,本文提出一种基于多实例学习(MIL)的支持向量机(SVM)处理时域和空域模糊性问题。图1给出了多实例学习的主要思路。虽然不能精确知道目标动作的发生位置和时间,但是可以估计出一个包括多个潜在位置和时间片的“包”。这个包可以是正性包(目标动作发生于包中的某一位置),也可以是负性包(目标动作并未发生)。正性包中肯定有至少一个正性实例,而负性包中的所有实例均为非动作实例。这种多实例方法既可识别目标动作,又可以确定动作的准确位置和时间段。
1 相关工作
针对人体动作检测问题,文献[3]提出一种累积方向?数量级光流梯度直方图的人体动作特征表示方法。该方法首先利用Horn?Schunck光流算法计算图像光流,然后将光流矢量按照不同的方向?数量级进行直方图统计,得到单帧图像的方向?数量级的光流梯度直方图,最后将单帧图像的直方图特征在时间维上进行累积来表示整个视频动作的特征。文献[4]提出一种结合全局的剪影特征和局部的光流特征的混合特征,并用于人体动作识别。该算法对于Weizmann数据库中的动作可以达到100%的正确识别率。文献[5]提出一种基于主题模型的人体动作识别方法,该方法首先提取时空兴趣点来描述人体运动,然后提出使用慢特征分析算法计算兴趣点梯度信息不变量最优解,最后使用概率潜在语义分析模型识别人体动作。文献[6]引入压缩感知和稀疏表示理论,同时解决人体活动监测中的动作识别和数据压缩问题,探索如何在达到一定动作识别率的同时降低传感器节点的能耗。
另外,文献[7]提出通过提取密集采样的局部视频补丁检测出背景比较简单的视频的不规则动作。这种方法难以对复杂场景下的非重复性动作执行对准操作。文献[8]提出体积特征,以便将时空形态与分割后的视频片断关联起来。与文献[9]基于流的关联算法相结合后,再利用手工分割获得的动作样本即可检测出视频中的多种动作。然而总的来说,以上方法都还存在着不足:高度依赖人体部位的跟踪,如果出现遮挡或环境变化等复杂因素,将无法得到完整的运动信息;当存在时域和空域模糊性时,人体动作检测精度较低;无法准确获取动作的时间段或动作意图模糊。为了解决以上问题,文中提出了一种面向复杂背景下的人体动作检测方案,并通过仿真实验验证了该方案的有效性。
2 系统概述
为了采集数据构建动作分类器,本文采取手工方式标识视频序列,以获得训练样本。只需明确人体头部的粗略位置以及动作发生地点的近似帧即可。标识过程结束后,按照帧内的不同位置/尺度及时间线上的不同起始/结束帧号,对标识后的视频序列做进一步修剪,于是每个动作(称为包)将生成多个段(称为实例)。这些阳性和阴性包将提供给本文学习算法以训练动作检测器。其中,每个正性包拥有一个目标作为目标动作,而负性包不含。
在测试阶段,本文将处理人体动作在时域和空域上的位置模糊性。本文系统允许短序列中的多个候选作为输入,并推断目标动作是否发生。它并不需要准确的跟踪器或人体检测。相反,可以利用人脸检测器或概率检测器的输出作为人体估计。同时,它也不需确切知道人体动作的起始或结束帧。相反,它可以考虑多种概率,并估计动作的实际发生位置。
为了获得区分性特征进行动作检测,本文首先考虑动作特征,以便将目标动作与其他动作区分开。因为传统的光流容易受到噪声影响,所以本文采用运动历史图像(MHI)特征[10],该特征积累了多个帧的运动信息。在本文系统中计算每个实例的MHI特征,然后将其下采样为10×10像素尺寸,即特征向量长度为100。
本文提出将运动和外观信息结合起来,以便提高人体运动的区分性能。采用了两种外观特征,并与MHI特征相结合,作为运动识别时的高度区分性特征。图2给出了这些特征的多个示例。第1种外观特征是前景图像(FI),通过与背景相减获得;第2种外观特征是定向梯度特征直方图(HOG)[11],它可以描述边缘和拐角的方向和大小。已知一个实例的图像区域,FI特征可正规化为10×10像素。为了获得HOG特征,图像区域被分为3×4=12个子窗口,然后使用梯度方向的8个容器计算直方图,为每个实例生成一个96维HOG特征向量。运动特征(MHI)和外观特征(FI和HOG)可从不同方面描述人体动作,且互为补充。外观特征可以描述运动期间人体的空间形态,而运动特征主要是描述正在运动的人体部位的方向和强度。
3 SMILE?SVM算法
下面介绍如何利用多实例学习解决动作检测在时域和空域上的模糊性,提出了一种模拟退火多实例学习支持向量机(SMILE?SVM)算法。已知一组输入模式[x1,x2,…,xN]分组到[B1,B2,…,BM]中,且对于已知索引集合[Im?1,2,…,N]有[Bm=xi:i∈Im]。每个包[Bm]关联一个标识[Ym,][Ym=1]表示包是正性包,至少有一个实例[xi∈Bm]是类别中的阳性样本。相反,[Ym=-1]表示包是阴性包,所有实例[xi∈Bm]均是阴性样本。将每个实例的标识表示为[yi,]则有:如果[Ym=-1,]则对[i∈Im]有[?yi=-1,]其中[m=1,2,…,M。]否则,如果[Ym=1,]则对[i∈Im,][?yi=1]。基于SVM的多实例学习可阐述为如下的目标函数最小化:
其中,[ξi]表示估计误差,[w]确定余量的尺寸。传统的SVM属于二次优化问题,则式(1)最小化是式(2)约束下的混合优化问题。因为[yi]的可能选择数量太多,所以该目标函数难以直接最小化。
SMILE?SVM算法的目的是在增加包识别率的同时实现分类器容限最大。因为分类容限的尺寸可由[1w2]衡量[12],所以定义一种新的目标函数:
[S=maxw,b,yinc+kw2] (3)
式中:[nc]表示包分类的正确率;[k]表示容限指标权重的控制参数,部署时将[k]设为0.5。SMILE?SVM采用一种参数[T](称为温度)控制新的评分[S]被接受的概率。在学习过程的早期步骤中,[T]要设置的足够大以便候选解能够转换为得分较低的另一种状态。在学习过程中,[T]逐渐下降,以便降低切换到[S]较低的其他状态的概率。当[T]接近0时,系统将会收敛。
SMILE?SVM采取迭代方式寻求最优得分[Sopt]。在第[t]次迭代时,SMILE?SVM生成一个相邻状态[y*i,]然后提供给下次迭代以便生成一个新的SVM分类器。为了使新分类器的决策边界与之前的边界类似,引入随机微小扰动以生成一个新的状态。
[y*i=-signfti,fti<阈值, i∈Itrandsignfti,else]
式中:[Itrand]表示第[t]次迭代的随机集合;[fti]表示由[wt,bt]估计的分类置信度。生成相邻状态[y*i]之后,SMILE?SVM就会决定是否将其作为下次迭代的训练集。首先,验证式(2)中的约束,如果式(2)满足,则系统将根据式(3)及[y*i]训练出来的分类器计算得分[St]。此时,通过随机数和[St]的比较决定将[y*i]作为下次迭代时状态[yt+1i]的概率。如果[y*i]未被接受或式(2)未被满足,则将生成另一个相邻状态。
4 仿真实验
本文通过两组实验评估SMILE?SVM算法的有效性。第一组实验使用CMU人体运动数据集[8]。第二组实验考虑一种真实应用,以检测超市中的客户是否有意从货架上购买商品。
4.1 CMU运动数据集的结果
CMU运动数据集中有5种类型的人体运动,包括人体跳跃、捡东西、双手挥动、单手挥动及按下电梯按钮。所有视频的持续时间约为20 min,包括大约100种目标运动。视频的分辨率下调为160×120像素。人体运动的方式有较大差异。背景带有噪声,且目标运动有时被其他人体遮挡。所有这些变化导致时域和空域存在较大的模糊性。评估时的训练/测试配置与文献[8]相同。一个人体进行的一个样本序列用于所有5种动作的训练。3~6个其他人体每种动作进行多次测试。采用一对多策略分别训练和测试5种人体运动检测器,于是在训练阶段有1个阳性包和4个阴性包,在测试阶段的阳/阴性包的分布类似。
图3给出了使用不同特征进行动作检测的性能比较结果。从图3中可以发现,综合使用运动和HOG外观特征(MHI+HOG特征)后的性能优于其他种类的特征。
表1比较了文献[8]中结果与本文算法的性能。对于所有运动,SMILE?SVM均显著优于文献[8]中的结果,惟一例外便是双手挥舞动作,这也证明了基于运动和外观特征的SMILE?SVM算法的有效性。
4.2 真实场景的结果:超市监测系统
为了进一步验证本文算法的有效性,在真实场景下对其性能进行测试,以证明其在监测应用场景下的作用。目标运动是拥挤的超市中客户是否有意从货架上购买货物,这种类型的运动包括使用一只手或一双手指向或触摸某种商品或者弯腰接近/观看某种商品。超市希望对这种运动进行跟踪以便知道客户的意图。该数据库采集于典型的超市场景下,在早晨和中午时间比较拥挤。
本文构建了一种目标运动检测系统,如图4所示。在该系统中,对卷积神经网络(CNN)[13]进行训练以便检测每一帧中的二维头部候选。根据头部检测器的输出,本文运动检测算法利用CNN人体检测器输出的视频帧中每个人体头部矩形的位置和尺寸作为输入,从空间邻域内这些头部位置周围及时间邻域的相邻帧中提取出不同位置的多个窗口,然后为这些实例提取视频特征。以SMILE?SVM算法的识别结果为基础,如果估计概率超过经过学习的置信度阈值,则检测到目标运动。如果在时间线上的相邻区域内检测到两个运动,则将其融合以形成层次更高、时间更长的运动。该系统将运动检测与三维跟踪器(比如将立体相机二维跟踪结果相融合后产生的结果)结合起来,可获得一些具体信息,比如货架上哪个部位最能吸引客户的注意力。这种信息对商家非常有用。
使用20 min左右时长的视频作为训练视频,40 min时间的视频用作测试视频,包括大约150个阳性运动样本。在时域上,每个运动分割为运动期间随机点上的多个小片断,每个片断的尺寸为10帧。在空域上,包含人体头部和身体的运动区域按照12种不同尺寸和尺度进行修剪。上述每个时空样本成为一个实例,且所有实例与包中的一个运动相关联。这一过程将分别在训练和测试数据集中生成约50个阳性包(包括25 000个实例)和100个阳性包(包括50 000个阳性实例)。对步行和站立等不感兴趣的其他阴性运动(阴性运动样本),只有10%左右(382个阴性包)被随机采样,以便获得数量类似的训练和测试阴性实例(34 000个和79 000个)。
为了保证比较的公平性,对不同算法使用相同的运动特征(MHI)。图5给了3种算法的精度/召回率曲线。可以发现,多实例学习算法的性能远优于经典SVM算法。此外,文献[2]中的算法不如本文算法,因为本文模拟退火搜索策略陷入局部最优值的概率较小。
通过将运动特征和外观特征结合起来后,本系统的性能得到进一步提升。如第2节所示,FI和HOG特征提供的信息与运动特征互补,因此本文分别将运动特征与FI和HOG特征相结合,构建了新的特征。图6给出了基于3种特征的性能:只有运动特征(MHI),两种混合特征((MHI+FI和MHI+HOG)。可以发现,使用混合特征的召回率比只使用MHI平均高出近20%(当精度率为0.6时)。
为了测试本文运动检测器的通用性,将其用于不同时期、不同时刻在超市中采集的新的视频序列。新视频采集于客户运动更密集的高峰时间。新的测试视频包含390个目标运动构成的阳性包和591个非目标运动构成的阴性包,大约包括124 000个阳性实例和166 000个阴性实例。
图7分别给出了采用MHI+FI和MHI+HOG联合特征时,原始测试数据和高难度测试数据的精度/召回率曲线。此时,MFI表示运动(MHI)和外观(FI)联合特征,MHOG表示运动(MHI)和外观(HOG)联合特征。可以发现,由于数据不同,算法总体性能略有下降。然而,这种误差并不明显,算法在新数据集上的性能仍然较好。
如前文所述,非运动包中的所有实例为阴性样本,运动包中只有部分实例被识别为阳性样本。利用这些阳性实例,不仅可以识别出目标运动是否发生于包中,还可以估计出该运动的位置和时间。图8演示了部分样本的运动检测结果,其中阳性示例用红色方框表示。鉴于本文实例的构建方法,即使人体被部分遮挡(见图8(c)),本文算法仍可以检测出目标运动及其时间和位置(见图8(a)和图8(b)。
5 结 语
本文研究了复杂场景下的人体运动检测问题,并提出一种多实例学习方法以克服时空模糊性。实验结果表明,本文方案不仅在公共的CMU运动数据集上的性能优于其他算法,而且在真实监测场景中具有应用价值。下一步工作是对当前系统进行拓展,以便适用于自助餐厅或麦当劳等更多场景。
参考文献
[1] 李拟臖,程旭,郭海燕,等.基于多特征融合和分层反向传播增强算法的人体动作识别[J].东南大学学报(自然科学版),2014,44(3):493?498.
[2] ANDREWS S, TSOCHANTARIDIS I, HOFMANN T. Support vector machines for multiple?instance learning [J]. Advances in neural information processing systems, 2002, 15(2): 561?568.



王编辑
中联论文网编辑
刘编辑
中联论文网编辑
赵编辑
中联论文网编辑
孙编辑
中联论文网编辑
电话
18931176030
固话
0311-80693734
投稿邮箱
ttqikan@163.com
99期刊承诺发表不成功无条件退款!
客服系统