1. 一种基于置信理论的样例人体姿态估计方法
基于样例的人体姿态估计方法基于图像特征计算不断演变的目标,这类方法需要从训练图像中进行学习。本工作中,我们假设在训练阶段的每个时刻都提取多种图像特征,并且这些图像都有对应的真实的目标姿态。在这种情况下,一种合理的解决方案是基于训练数据学习从特征空间到姿态的映射。在人体姿态估计问题中,我们需要构建一个多值映射。本工作提出了一种基于信念模型回归的方法,将单个特征空间的概率测度利用信任函数映射到训练姿态概率的凸集上。对测试集合中的图像特征度量将转换成置信函数的集合,将这些置信函数进行融合可以生成一个概率分布族,据此可以计算一个中心姿态或者是极值姿态的集合及其估计的可信度。
图1. 证据模型
同其他的方法相比,本方法考虑了训练数据的离散性并对估计的不确定进行建模。对比实验表明提出的方法比相关向量机和高斯过程的估计效果都要好。上图给出了本工作中的证据模型。在训练阶段,通过对第i个特征空间进行EM聚类,产生了近似特征空间 ,然后利用细化映射 学习近似特征空间和特征近似空间 之间的对应关系,可以将在特征空间,...,上采集的证据在特征近似空间 空间上进行融合。
2. 人体动作分析综述
拓扑信息和流形特征等几何特征是非常重要的几何信息。计算机视觉和图像学领域经常使用几何方法,例如基于几何特征的方法。这项工作研究总结了几何概念、几何方法以及它们在人体动作分析中的应用,主要是人体姿态估计和人体行为识别方向。根据提取的几何属性的范围,几何方法可以分为:面向物体的几何方法、面向特征的几何方法、基于流程的几何方法。目前,深度学习方法在很多领域都有广泛的应用,这项工作研究和总结了几何深度学习方法。我们收集了验证数据库和相关方法在这些数据库上的运行结果,图2.1给出了收集的几何方法的运行结果表。
图2.1 几何方法的结果对比表
这项工作研究并总结了从单目图像进行人体姿态重构的相关工作和最新进展。基于传统计算机视觉问题的求解思路,从人体姿态估计问题的特征提取和描述、人体建模和估计方法三个方面分别进行讨论。
对人体姿态估计算法也采用了两种分类方法:一类是将人体姿态估计方法分成自顶向下的方法和自底向上的方法,另一类将人姿态估计方法划分成基于产生式的方法和基于判别式的方法。
考虑到运动信息在视频监控中的重要作用,每个章节都专门讨论基于运动的方法:基于运动的特征、基于运动的模型和基于运动的方法。
最后,我们收集了用于验证人体姿态估计的26个数据库并研究了用于验证人体姿态估计方法的度量方法。
下图给出了对这些方法进行归纳整理得到的一张汇总表格(因为版面关系,表格只显示了一部分)。
图2.2 从单目图像进行人体姿态估计的相关方法总览图
3. 基于弱姿态的人体行为识别
这项工作研究了利用弱姿态从视频进行人体行为识别的方法。该工作利用三维人体姿态数据作为补充信息训练模型,人体姿态信息被投射到一个低维空间,在这个空间中,表示人体姿态的最关键的信息被保留了下来。利用从图像估计的人体姿态,我们将人体行为识别问题从图像特征空间映射到弱姿态空间,在这个空间中,基于关键姿态的姿态袋(Bag of Poses, BOP)用来表示人体行为。姿态袋是经典词袋模型的变形,词典是由最具代表性的人体姿态构成的。不同于传统的k-means聚类方法计算词典,我们提出了一种计算关键弱姿态的方法,与传统方法比,我们的方法对识别人体行为更有效。
另外,众所周知,在人体行为识别中,时序信息是非常重要的信息,不同的动作以不同的顺序执行可能会变成不同的行为,因此我们对BOP模型继续改进,进一步加入时序信息。
这项工作中提出的方法在两个著名的公开数据库上进行验证:HumanEva和IXMAS,证明弱姿态有助于提升人体行为识别的准确性。
图3给出了本工作提出的方法的训练阶段示意图。
图3. 训练阶段示意图。在训练阶段,高斯过程学习从形状上下文描述符 (SCDs)到弱姿态的映射。同时,人体姿态袋(BOP)模型为每个人体行为提取关键人体姿态,并训练支持向量机分类器。
4. 人体姿态估计问题中基于建模和基于学习的方法对比
这项工作研究了从单目图像进行三维人体姿态估计的问题,二维姿态的信息作为额外的训练信息。针对这个问题有很多的相关研究工作。有的方法利用二维姿态和三维姿态之间的几何关系进行建模;也有的方法避免对二维到三维映射进行直接建模,通过训练数据学习对应关系。但是,到目前为止,并没有相关工作对比这两类方法的效果。本项工作对比了主流的基于学习的方法-高斯过程回归器-和主流的基于建模的方法-基于几何重构的三维姿态估计方法。
实验结果表明在没有大幅度视角和行为类型变化时,基于学习的方法比基于几何重构的方法效果要好;相反的,如果训练和测试数据间差别比较大时,基于几何重构的方法效果更好。
图4. 三维人体姿态估计量化结果示例。“Exp/2D Input”列显示的是实验序号和输入二维姿态类型,输入数据类型包含真实的二维姿态数据(“gt”)和从图像估计的二维姿态数据(“est”)两种类型。第一列和第二列图像显示的是真实的三维人体姿态和利用几何重构方法估计得到的三维人体姿态。第三列和第四列图像显示的是真实的三维人体姿态和利用高斯过程估计得到的三维人体姿态。