好无奈,在微信如何录制笔记收藏笔记中录制的声音无法保存!

最先进的行人检测模型在许多基准测试中取得了巨大的成功然而,这些模型需要大量的注释信息标记过程通常需要花费大量的时间和精力。本文提出了一种生成标记荇人数据的方法并将其用于行人检测器的训练。该框架建立在具有多个鉴别器的生成对抗网络(GAN)的基础上试图对真实行人进行综合,同時学习背景信息为了处理不同大小的行人,我们在鉴别器中采用了空间金字塔池(SPP)层我们在两个基准上进行实验。实验结果表明该框架能够在不同层次细节的背景图像上平滑地同步不同大小的行人。为了定量评价我们的方法我们将生成的样本加入到基线行人检测器的訓练数据中,并证明合成的图像能够提高检测器的性能

行人检测是计算机视觉中的一项关键任务,具有广泛的应用包括自动驾驶仪、監控和机器人技术[1,2,3,4]。近年来基于卷积神经网络(tional neural network, CNNs)的行人检测器,如Faster R-CNN[5]和YOLO9000[6]被应用于各种基准测试中。基于大量的培训示例这些模型可以比鉯前的基线实现显著的性能改进。

然而为行人位置标记ground-truth边界框需要花费大量的时间和人力。同时基于cnn的行人检测器的性能在很大程度仩取决于训练数据集中标注的质量和多样性。换句话说这些方法期望训练数据集能够覆盖与测试数据相同的场景或类似的背景环境,例洳相机配置、光照条件和背景当一个人将这些方法应用到一个新的无注释视频或监控有限的视频时,这就成为一个问题因此,设计只依赖于有限的监控并且能够顺利扩展到新的无注释数据集的方法是非常重要的

解决这个问题的一种方法是开发自动生成标记数据集的方法。目前已有一些研究利用仿真技术生成图像中的行人外观及其位置[7,8]但这些方法适用于固定摄像机等严格的环境。提出了一种用于移动攝像机[9]的模型该模型可以将场景中的真实背景信息与人工生成的行人相结合。然而由于它们通过渲染三维人体模型来生成行人,合成嘚图像看起来既不现实又不自然.

最近生成对抗网络(GANs)[10]在多个应用中取得了可喜的成功[11,12,13],基于此我们提出构建一个基于gan的模型,在真实场景中生成逼真的行人图像并将其作为增强数据来训练基于cnn的行人检测器。与使用常规的GAN作为强大的图像生成工具相比我们的模型的目標有所不同,更具挑战性因为:1)生成行人,使其与背景场景很好地匹配;2)为基于cnn的检测器提供相应的合成行人位置作为ground

(Db用于背景上下文学习Dp用于行人分类),如图1所示我们用随机噪声替换边界框中的行人,训练发生器G在噪声区域内合成新的行人鉴频器Db,学习区分实数对和匼成对同时,鉴别器Dp学习判断从包围框中裁剪出来的合成行人是真还是假Db的目的是迫使G学习噪音箱中的道路、灯光等背景信息。它使嘚背景和合成行人之间的连接更加顺畅Dp让G生成更加真实的行人形状和细节。此外由于裁剪的合成行人的大小不同,我们在Dp中使用了空間金字塔池(SPP)层[14]来避免调整大小的影响经过训练,发生器G可以在噪声箱区域内学习生成逼真的行人并将噪声箱的位置作为检测器的ground

据我們所知,PS-GAN是第一个利用GAN生成行人/对象检测任务数据的工作我们在两个大型数据集上进行评估:Cityscapes[15]和Tsinghua-Daimler自行车基准[16]。我们利用该模型在这两个数據集上生成结果并用真实数据和合成数据对速度更快的R-CNNs[5]进行训练,证明了数据增强的有效性我们证明:

-我们提出的模型能够生成清晰逼嫃的行人图像,并能很好地适应真实场景/图像中的背景;

- PS-GAN生成的数据可以与一些真实样本一起训练基于cnn的检测器该数据增强步骤与原模型楿比,可以提高检测性能和稳定性;

跨数据集实验即,模型在一个数据集上进行训练在另一个数据集上进行测试,PS-GAN也能够生成良好的样夲提高基于cnn的检测器的性能。

行人检测由于其在驾驶系统、监控、机器人等领域的广泛应用而备受关注[1,2,3,4]在参数化CNN模型的基础上,近期嘚工作[5,6,17,18,19]可以在多个基准下取得良好的检测性能然而,这些模型需要大量的训练样本这是非常耗时的,需要很多人力的努力

为了解决這个问题,研究人员提出了不同的解决方案其中之一就是开发数据增强技术。现有的数据增强方法一般局限于特定的任务或条件:[7]只关注囚群行为[8]只在摄像机静止时工作。论文[9]提供了一种自动且相对健壮的STD-PD模型该模型可以选择合适的位置放置合成剂。使用3D模型进行行人渲染生成的图像不真实。由于仅使用手工规则很难对真实场景中复杂的行人分布进行建模我们决定采用GANs等数据驱动的方法来完成任务。

生成对抗网络最初的GAN是由[10]提出的为了提高这代人的训练稳定性和视觉质量,后续的工作很多[20,21,22,23,24,25,26]GANs还被应用于许多其他应用中,如超分辨率[13]、图像内绘[12,27,28]、图像平移[11,29,30,31][21]提出了DCGAN,并将其用于扩充训练数据进行人员再识别其重点是验证标签平滑正则化的有效性,而不是生成图像嘚质量[32]提出了一种PGGAN算法,用于在裁剪后的人物图像中合成任意姿态的人物

与我们的工作最相关的是Pix2Pix GAN[11],当有成对的训练样本时它具有鈳靠和健壮的结果。[31]在原始版本中增加了循环一致性损失使得模型可以在没有成对的训练示例和特定于任务的设计函数的情况下进行转換。为了综合噪声盒中的行人并将行人所在位置作为边界盒标签,我们采用了Pix2Pix GAN中的成对训练但采用了不同的多鉴别器架构。

相比于图潒内绘[12,27,28]我们的框架是用噪声而不是单色块来填充缺失区域,生成形状/颜色各异的斑块在噪声盒中合成行人时,我们只需要根据图像周圍部分提供的背景信息来学习背景信息[28]中的工作利用类似的两个鉴别器GAN进行图像内画,以了解更多的周围像素的上下文信息与此不同嘚是,我们将从生成的输出中裁剪出来的行人patch传递到识别器中鼓励模型生成不同形状的人。

生成对抗网络[10]由一个生成器G和一个鉴别器D组荿它们在一个二人极小极大博弈中竞争。在本文中我们采用了对抗性学习的思想,提出了一种具有多重鉴别器的PS-GAN算法该算法能够利鼡相应的边界框信息合成具有真实感的行人。与常规的GAN不同我们的方法利用了生成器G和两个鉴别器之间的对抗性过程:用于背景上下文学習的Db和用于行人鉴别的Dp。

我们的框架灵感来自于C-GAN工作[33]在训练的同时,我们用随机噪声替换原始图像的行人地区,G .假设噪声图像x而行人的原始图像是yG试图产生假尽可能相似的图像从x到y愚弄两个鉴别器Db和Dp。因此在生成新数据时,我们可以将噪声箱放置在需要行人的某一区域利用发生器G在噪声箱中合成行人。在本节中我们首先介绍了模型体系结构,然后详细阐述了总体目标的制定

G的U-Net:G学习映射函数G:x→y,其中x是输入噪声图像y是地面实况图像。 在这项工作中我们采用G的增强编码器 - 解码器网络(U-Net)[11]。它遵循编码 - 解码器架构的主要结构其Φ输入图像x通过一系列卷积层作为下采样层直到瓶颈层。 然后瓶颈层将原始输入的编码信息馈送到要进行上采样的去卷积层。 U-Net使用跳过連接将下采样和上采样层连接到相对于瓶颈层的对称位置这可以保留更丰富的本地信息。

    Dp判断假/真行人  :对于这个鉴别器Dp我们从生成的圖像裁剪合成行人作为反面例子,而从原始图像y作为正例的真实行人yp因此,Dp用于分类行人是真实的还是假的在噪音箱中它迫使G学习从噪声z到真实行人yp的映射,其中z是噪声图像x中的噪声区域
Dp的整体结构如图2所示。我们将LeakyRelu和BatchNorm层应用于5层卷积网络通常,鉴别器网络接受固萣大小的输入然而,我们的Dp的输入是来自生成的图像或地面实况图像的裁剪的行人其具有各种尺寸。为了解决这个问题我们采用Dp中嘚空间金字塔池(SPP)层[14],SPP层的细节也如图2所示实验中,对于每个裁剪的行人我们使用3级空间金字塔(1×1,2×2,4×4,共21个箱子)来汇集特征之后,我们将所有这些3级功能连接到整个特征向量并应用Patch

Db学习背景背景:我们模型的目标不仅是合成一个真实的行人而且还将合成行人岼稳地填充到背景中。因此它需要我们的模型来学习上下文信息、光照条件,周围背景等遵循Pix2Pix GAN [11]的配对训练配方,Db用于在真实和合成对の间进行分类真实对将噪声图像x和地面实况图像y连接起来,而合成对将噪声图像x和生成的图像连接起来整体框架训练Db如图2所示。
Db的主偠结构遵循DCGAN [21]的设计具有以下修改:1)我们使第一卷积层接受堆叠图像对的6通道输入; 2)我们使用PatchGAN在这个鉴别器如在[11],这意味着Db的尝试如果烸个N×N进行分类(在我们的实验中N被设定为70),补丁图像中是真实的或假的; 3)我们在Db中采用LSGAN [22]的损失函数为了适应PatchGAN设置,我们计算均方徝在N×N输出和相应的全1或全零矩阵之间作为Db的损失函数

如图1所示,我们的模型包括两个对抗性学习过程G?Db和G?Dp G和Db之间的对抗性学习可鉯表述为:

其中x是带有噪声盒的图像,y是基础真实图像我们在这里使用LSGAN以最小平方损失替换原始GAN损失。
为了鼓励G在输入图像x中的噪声框z內生成逼真的行人我们在G和Dp之间进行了另一个对抗程序:

其中z是x中的噪声框,yp是地面实况图像y中的裁剪行人我们使用负对数似然目标來更新G和Dp的参数。
GAN的培训可以从传统的损失中受益[11]在这
纸,我们应用A1损失来控制生成的图像和地面图像y之间的差异:

我们在Cityscapes [15]上测试PS-GAN模型並显示合成图像的质量为了分析数据增强的影响,我们将实数和合成数据结合起来训练更快的R-CNN [5]探测器并评估性能此外,为了评估在有限监督下对新视频生成训练样例的能力我们测试了使用Cityscapes在清华 - 戴姆勒骑单车基准测试中训练的PS-GAN模型[16]。所有这些实验都基于PyTorch 2并在Titan X


Cityscapes数据集是┅个用于语义城市场景理解的大型数据集其中包含来自50个城市的各种立体视频录制[15]。与Caltech Pedestrian [34]和KITTI [35]等其他基准相比Cityscapes拥有更高分辨率的图片,包含更多品种丰富的行人更适合训练GAN。

 我们基于像素标签为所有行人生成边界框有一些标记的行人太小或被汽车或墙壁部分阻挡。因此我们过滤掉所有高度小于70像素且宽度小于25像素的边界框。之后我们获得了2326个图像,其中包含9708个标记的行人并随机选择500个图像作为测試数据集。我们不直接将原始图像()输入PS-GAN相反,我们裁剪256×256从原始的图像中选择行人周围的补丁此外,我们从1826年的训练图像中选择叻1200个行人区显示完整的体形这些1200个补丁将在行人位置覆盖噪声盒,然后将这些噪声图像作为PS-GAN的训练数据为了显示PS-GAN产生的行人,我们进荇了两个实验:
1)在真实的行人位置上产生行人以及2)仅在没有行人的背景图像上产生行人。对于第一个设置我们从原始行程围绕行囚裁剪256×256个补丁500个测试示例中的个图像并填充噪声框覆盖那些补丁中真正的行人。我们预先培训的发电机合成这些噪音箱内的行人我们仳较合成和真实的行人,如图3所示对于第二个设置,我们从空白场景图像中随机裁剪256×256补丁没有任何标记的行人。考虑到行人不能出現在不合理的位置在墙上或车内我们删除了那些错误的图像,并在剩余的图像块中添加了噪声框结果如图4所示。
我们列出了所有基线模型的合成样本在200个时期的相同训练集上训练。与基线Pix2Pix GAN相比PS-GAN可以在图3和图4中生成更好的图像质量.Pix2Pix GAN的大部分结果只有黑暗的人形,而PS-GAN的荇人形状非常清晰它证明了我们的鉴别器Dp可以有效地引导发生器G学习更真实的形状信息和行人细节。为了评估SPP层在Dp中的效果我们将PS-GAN的結果与模型A进行比较,模型A在Dp中没有SPP层如图3和图4所示,具有SPP层的模型可以了解更多行人的详细信息例如,在图3和图4的第一行中可以清楚地看到来自PS-GAN的人的腿,而他们在模型A的模糊中是模糊的
在我们的实验中,我们发现使用LSGAN [22]进行Db有助于学习背景背景当对抗性学习G?Db應用最小平方损失并保持时,PS-GAN可以获得最佳图像质量G?Dp的常规GAN损失我们设计采用的模型B.LSGAN在对抗性学习程序中都有损失,但结果却没有
与PS-GAN楿比具有竞争力如图3和图4所示。模型B的性能仅比Pix2Pix GAN略好我们还研究了模型C,它使用对抗性学习过程中的常规损失实际上,模型C可以产苼具有良好人体形状的行人在图3的最后一行中,它甚至可以生成具有更好形状的行人但是,此模型无法学习足够的背景上下文信息以適应周围的像素
我们分析了两个鉴别器Dp和Db在我们的工作中具有不同的最佳GAN损失的原因:1)对于Dp,当我们应用PatchGAN技巧时具有最小平方损失嘚LSGAN将比常规GAN损失获得更大的误差。它使模型对图像中的每个像素比对常规GAN更敏感因此,可能迫使G学习太多行人的详细信息而不是捕获全浗分布; 2)然而我们的鉴别器Db可以在学习背景上下文信息时从最小平方损失中受益。我们希望生成器严格学习周围像素的背景信息来自Cityscapes仩的图像的256×256补丁上的行人。之后我们将生成的行人填充到原始图像中。我们希望生成器严格学习周围像素的背景信息
我们从生成的圖像中裁剪行人,并证明PS-GAN可以生成具有尖锐体形和详细信息的行人如图5所示。与[36]中的工作相比后者使用12,936个图像来训练GAN用于 人员重新识別任务,我们只使用1200个图像来训练PS-GAN并获得更清晰更逼真的照片效果。

定量分析:在本节中我们将PS-GAN生成的数据与一些实际数据相结合,鉯训练更快的R-CNN检测器[5]来分析数据增强的影响在实验中,我们按照上面定性结果部分的设置随机放置噪声框,从城市景观图像上的256×256贴爿上生成行人之后,我们将生成的行人填充到原始图像中一些例子如图6所示。许多合成行人由PS-GAN提供

在原始图像中看起来幻觉真实仅茬1826年训练图像上进行训练。值得注意的是所有补丁都被添加到原始的1826训练图像中,这意味着我们不会涉及合成行人的任何新图像为了演示增强合成图像如何帮助提高快速R-CNN模型的性能,我们训练了三个更快的R-CNN探测器[5](基于VGG-16 [37]的模型)基线检测器在原始的1826训练图像上进行训練,并且对这些图像训练两个检测器分别添加来自Pix2Pix GAN和PS-GAN的合成行人。所有探测器都在500个测试图像上进行测试当所有模型收敛时,平均精喥(AP)均来自最佳性能我们还在1826年的训练图像中添加了不同数量的合成行人,并将结果显示在表1中尽管更快的RCNN探测器在1856年图像上训练嘚很好(60.11%),但在原始图像上添加合成行人以训练探测器是仍然有益来自PS-GAN的5000名合成行人,我们将探测器性能从60.11%提高到61.79%相反,从Pix2Pix GAN添加8000个合成行人将性能降低到58.41%因为从Pix2Pix GAN中添加太多示例会破坏正常的数据分布。该实验结果与Pix2Pix GAN的可怕视觉质量相匹配

为了更深入地了解增强合成图像的效果,我们进行了更多的实验如表1所示。我们使用300个真实图像训练基线更快的R-CNN探测器[5](基于VGG-16 [37]的模型)并且还采用Pascal VOC预处悝的探测器[5] [38]此外,所有探测器都在500个测试图像上进行测试此外,为了避免GAN模型看到比更快的R-CNN更多的数据所有Pix2Pix GAN模型和PS-GAN模型都在同一图潒集上重新训练以训练更快的R-CNN。换句话说我们在300张图像上重新训练那些GAN模型以进行公平比较。合成行人也在添加到原始图像中而没有茬训练中添加任何新图像。如表1所示在Pascal VOC 2007数据集和2007年和2012年数据集上预先检测到的检测器可分别达到34.13%AP和36.85%。这一观察结果表明不同背景丅的预训练模型表现不佳。在Cityscapes中使用300个真实图像和1173个行人的基线检测器可以达到行人检测的平均精度(AP)的47.08%通过添加合成图像,可以提高AP速率添加1000个合成行人时,我们获得最佳性能它的表现优于基线1.71%,而增加2000人的合成行人只能提高1.04%在这两种情况下,我们将结果与从Pix2Pix GAN合成的图像进行比较它略微降低了所有实验的性能。

我们还使用1000个真实图像训练另一个基线更快的R-CNN探测器总共注释了4368个行人。 哃时GAN模型在1000个真实图像上重新训练。 这里的动机是看当增强的合成图像如何在更快的R-CNN模型获得不同数量的真实训练数据时帮助提高性能 我们将2000和4000个合成行人添加到原来的1000个真实行人中并重新训练更快的R-CNN探测器。 我们可以看到即使更快的R-CNN在更饱和状态下训练,具有数据增加的模型可以达到56.19%AP优于基线3.47%。

4.2清华 - 戴姆勒自行车运动员基准

Tsinghua-Daimler Cyclist Benchmark [16]是一个骑车人检测数据集包含4个子集:训练,验证测试和“NonVRU”集。火车组包含9741个图像注释为“骑自行车者”。验证集中有1019个图像测试集中有2914个图像,其中包含“行人”“骑车人”,“摩托车手”“三轮车”,“轮椅使用者”和“轻便摩托车”等注释 “NonVRU”集包含1000张仅带背景图像的图像(无行人)。
为了探索PS-GAN的泛化能力我们进荇了交叉数据集测试。此实验的目的是模拟在有限监督下将新GAN模型应用于新的未注释视频或视频的情况当训练集包含测试集中的类似场景时,提高性能很有用如果PS-GAN在新数据中具有很强的泛化能力,那么当我们面对具有有限注释信息的新任务时它可能非常有用。

首先峩们直接应用城市景观预训练的PS-GAN模型(使用1826个图像)在“NonVRU”集的空背景图像上生成行人。由于“NonVRU”设置中的某些图像不适合(例如没有噵路,太暗或太亮等)来合成行人因此我们会在删除这些图像后获得650张图像。与我们在Cityscapes中所做的类似我们裁剪
这些图像中有256×256个补丁,并放置了噪声盒来合成行人
生成的示例如图7(a)所示。在没有添加来自清华 - 戴姆勒自行车运动员基准测试的任何数据的情况下PS-GAN仍然鈳以在该数据集上生成高质量和逼真的图像。请注意这两个数据集之间存在许多差异,例如背景光照条件和行人风格。我们可以预期苼成的图像质量有一个


与Cityscapes的结果相比略有下降具体而言,行人周围的区域与背景不匹配并且在某些情况下行人的身体会丢失一些细节。然而生成的图像仍然看起来很自然,质量令人满意
此外,我们在使用Cityscapes上的真实数据和添加合成数据来训练更快的R-CNN之间进行比较为叻测试,直接使用清华 - 戴姆勒自行车基准测试的所有2914个测试图像其边界框标注为“行人”和“骑自行车者”。结果显示在表2中其中添加650个合成图像比使用Cityscapes上的实际数据的基线获得了巨大的改进(2.64%)。与Cityscapes中的设置不同我们在添加合成行人时添加新的背景图像。为了说奣添加新图像的效果我们还与城市景观和650空背景图像上的真实数据训练的探测器进行了比较。添加背景图像可以带来轻微的改善约为0.29%。在这种情况下使用Pix2Pix GAN合成的图像的结果可以略微提高AP率,但与PS-GAN相比改善率差得多2.3%。
同时我们使用不同数量的训练数据为Faster-RCNN执行检測实验。我们报告了使用300和1000个真实图像的结果以及在表2中单独添加合成图像和背景图像。此外我们使用GAN模型在300和1000图像上重新训练,如峩们在4.1节中所做的那样两种情况下的表现均得到改善。添加背景图像可以带来有限的改进分别为0.91%和0.6%。在这里添加一些合成数据显礻了显着的帮助分别提高了2.62%和2.52%的性能。特别是当将1000个合成图像添加到1000个真实图像中时AP率从42.42%变为44.94%,甚至明显优于使用1826个真实图潒训练检测器的AP率43.77%此外,在所有情况下我们将结果与从Pix2Pix GAN合成的图像进行比较。它只能实现与基线探测器类似的AP速率并且没有比PS-GAN做嘚更好。

4.3预训练探测器的评估
最后我们使用在真实图像上预训练的探测器来检测合成样本(使用500个样本)并报告AP速率。使用了两个更快嘚RCNN探测器[5]这些探测器使用Pascal VOC和Cityscapes(300个样本)进行训练。我们还将PS-GAN与Pix2Pix GAN进行了比较结果列于表中3.我们可以看到,使用PS-GAN生成的样本上的检测器的AP速率远高于使用Pix2Pix GAN的样本显示了PS-GAN在另一个前景中的生成功率。

我们建议PS-GAN在真实场景中的某些边界框内合成行人实验结果表明,该模型能夠生成高质量的行人图像合成图像可以有效提高基于CNN的探测器的能力。在交叉数据集测试中我们在Cityscapes上训练的PS-GAN模型可以在其他新数据集Φ进行相当好的生成,并有助于增强检测这证明了泛化和传递知识的能力。当我们面对具有有限注释信息的新任务时这很有用。
目前PS-GAN行人的温度范围较小(不能太小或太大),这限制了它产生更多样化和自然的数据让PS-GAN处理极端情况具有挑战性。除此之外如何控制PS-GAN鉯在合理的位置产生行人(例如,行人不应该在树上或在水中)也是有趣的
与此同时,将PS-GAN应用于其他检测任务无疑是我们未来的工作之┅

}

我要回帖

更多关于 微信如何录制笔记 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信