Skip to content

Yangget/crowd_density

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 

Repository files navigation

人群密度估计资源汇总

	计算机视觉领域的神经网络研究在点估计方面取得了显着的准确性。但是,估计中的不确定性很少得到解决。伴随点估计的不确定性量化可以导致更明智的决策,甚至可以提高预测质量。近年来,针对人群场景的人数统计是一个热门话题,它的应用广泛,例如视频监控,公共安全。在涉及人群管理时,预防踩踏和挽救生命是至关重要的,尤其是在中国和印度这样的国家中,其总人口占全球人口的三分之一。全国各地每年都有数百万人召集来庆祝无数事件,而人群计数估计是可以防止踩踏和挽救生命的人群管理系统的关键。

	人群计数旨在统计人群中的瞬时人数,在公共安全领域中扮演着越来越重要的角色。越来越多的研究人员已经针对图像上的人群计数任务提出了许多有前途的解决方案。随着人群计数应用的不断扩展,如何将该技术应用于视频内容已成为迫在眉睫的问题。目前,尽管研究人员已经收集并标记了一些视频剪辑,但对视频的时空特性的关注却很少。

主要论文

1. 《户外人群计数的综合数据学习》(20190308)。

在户外,多变的环境,大量的人导致当前的方法无法正常工作。另外,由于数据的稀缺,许多方法都在一定程度上存在过拟合。未来解决这两个问题。此文首先开发了一个数据收集器和标签器,可以生成人工场景并同时为他们添加注释,而无需任何人工。在此基础上,我们构建了一个大规模,多样化的综合数据集。其次,提出了两种利用综合数据来提高野外人群计数性能的方案:

2. 《具有不确定性的人群计数》(20190315)

提出了一种可扩展的神经网络框架,该框架使用自举集合对分解的不确定性进行量化。证明了所提出的不确定性量化方法为人群计数问题提供了更多的见解,并且易于实现。还表明,在许多基准数据集中,提出的方法要优于当前的最新方法。

3. 《 W-Net:用于密度图估计的增强型U-Net》(20190328)

提供了一个用于人群计数的网络,该网络报告了基于人群计数基准的最新结果。首先,论文的贡献是受到U-Net模型的启发,该模型使之能够报告最先进的结果。第二,提出了一个独立的解码加固分支,该分支可以帮助网络更早地收敛,并且还可以使网络估算具有高结构相似指数(SSIM)的密度图。第三,讨论了当代体系结构的弊端,并通过经验证明即使体系结构达到了最先进的结果,优点也可能是由于编码器-解码器管线所致。最后,报告了误差分析,该误差分析表明当代的工作线已经饱和,并且存在一些尚未解决的突出问题。

4. 《 DENet:用于计数密度和尺度变化的人群通用网络》(20190418)

在本文中,提出了一个简单而有效的网络,即DENet,它由两个部分组成,即检测网络(DNet)和编码器-解码器估计网络(ENet)。首先在输入图像上运行DNet,以检测和计数可以清楚地细分的个人。然后,利用ENet估计其余区域的密度图,在这些图中无法检测到个人的数量。提出一种改进的Xception作为特征提取的编码器,并结合使用扩展卷积和转置卷积作为解码器。在ShanghaiTech A部分,UCF和WorldExpo'10数据集中,DENet实现平均绝对误差(MAE)比最新方法低。

5. 《 PCC Net:通过空间卷积网络进行透视人群计数》(20190424)

从单个图像进行人群计数是一项艰巨的任务由于外观相似度高,视角变化和严重拥堵。许多方法仅关注局部外观特征,而不能应对上述挑战。为了解决这些问题,提出了一个透视人群计数网络(PCC Net),它由三个部分组成:1)密度图估计(DME)专注于学习非常局部的密度图估计功能;2)随机高密度分类(R-HDC)提取全局特征以预测图像中随机色块的粗略密度标签;3)前/背景分割(FBS)对中级功能进行编码,以分割前景和背景。此外,DULR模块嵌入PCC Net中,可对四个方向(下,上,左和右)的透视变化进行编码。提议的PCC Net在五个主流数据集上进行了验证,从而在一个数据集上达到了最先进的性能,并在其他四个数据集上获得了竞争性结果。

6. 《定位,大小和计数:通过检测准确地解决密集人群中的人》(2019621)

引入了用于密集人群计数的检测框架,并消除了对普遍密度回归范式的需求。典型的计数模型可以预测图像的人群密度,而不是检测每个人。通常,这些回归方法无法对除计数之外的大多数应用足够准确地定位人员。因此,我们采用了一种架构,该架构可以定位人群中的每个人,并用包围盒对发现的头部进行大小调整,然后对其进行计数。与普通的物体或面部检测器相比,在设计这种检测系统方面存在某些独特的挑战。其中一些是人群密集的巨大多样性的直接后果,也是需要连续预测盒子。我们解决了这些问题,并开发了我们的LSC-CNN模型,该模型可以可靠地检测到稀疏到密集人群的人头。LSC-CNN采用了具有自顶向下的反馈处理的多列架构,可以更好地解决人员并以多种分辨率生成精确的预测。有趣的是,所提出的训练方案仅需要点头部注释,而可以估计头部的大致尺寸信息。我们显示,LSC-CNN不仅比现有的密度回归器具有更好的本地化能力,而且在计数方面也表现出色。

7. 《人群计数的密集尺度网络》(20190624)

先前的方法采用多列CNN或具有多个分支的单列CNN来解决此问题。但是,受列数或分支数限制,这些方法只能捕获几个不同的比例,并且功能有限。在本文中,我们提出了一个简单但有效的网络DSNet来进行人群计数,可以轻松地以端到端的方式对其进行训练。我们网络的关键组件是密集的扩张卷积块,其中每个扩张层与其他扩张层紧密连接,以保存来自连续变化尺度的信息。仔细选择膨胀层中的膨胀率,以防止块产生网格伪影。为了进一步扩大网络覆盖范围的范围,我们将三个块级联,并将它们与密集的残差连接起来。我们还介绍了一种新颖的多尺度密度级一致性损失,以提高性能。为了评估我们的方法,我们将其与四个人群统计数据集(ShanghaiTech,UCF-QNRF,UCF_CC_50和UCSD)上的最新算法进行了比较。

8. 《反向注意引导的人群计数网络》(20190722)

介绍了逆向注意力指导的深层人群计数网络(IA-DCCN),该网络可以通过逆向关注机制将细分信息有效地注入计数网络,从而带来显着改善。该方法基于VGG-16,是一种单步训练框架,易于实现。分割信息的使用导致最小的计算开销,并且不需要任何其他注释。我们通过详细的分析和消融研究证明了分段引导负注意的重要性。

9. 《通过动态时间建模进行视频人群计数》(20190704)

本文提出了一种基于动态时间建模的视频帧之间关系的新颖框架。通过构造一组用于人群计数任务的扩张残差块来对相邻特征之间的关系进行建模,每个阶段具有一组扩展的时间卷积以生成初始预测,然后通过下一个预测对其进行改进。当发现相邻的密度图比原始视频帧共享更多相似信息时,密度图提取特征。还提出了一个较小的基本网络结构,以平衡计算成本和良好的特征表示。使用建议的框架对五个人群计数数据集进行了实验,并证明了其在有效性和效率方面优于以前的方法。

10. 《C3框架:开源的PyTorch人群计数代码》(20190705)

1)提出了一些可靠的基准网络,这些网络已经达到了最新水平。2)提供了一些灵活的参数设置策略,以进一步提高性能。3)开发了功能强大的日志系统来记录实验过程,从而可以提高每个实验的可重复性。

11. 《局域性空间变压器网络用于视频人群计数》(20190718)

首先利用卷积神经网络来估计每帧的密度图。然后,为了将相邻帧之间的密度图相关联,引入了局域约束空间变压器(LST)模块,以估计下一帧的密度图和当前帧的密度图。为了促进性能评估,收集了一个大规模的视频人群计数数据集,其中包含15K帧以及从13个不同场景捕获的约394K带注释的头部。它是最大的视频人群计数数据集。

12. 《HA-CCN:基于分层注意力的人群计数网络》(20190224)

介绍了基于分层注意力的人群计数网络(HA-CCN),该网络在各个级别采用了注意力机制来选择性地增强网络的功能。该方法基于VGG16网络,由空间注意模块(SAM)和一组全局注意模块(GAM)组成。SAM通过注入空间分割信息来增强网络中的低级功能,而GAM则专注于增强高层中的通道信息。所提出的方法是一个单步训练框架,易于实现,并且可以在不同的数据集上获得最新的结果。此外,引入新颖的设置来扩展提议的计数网络,以通过使用图像级标签的弱监督来使网络适应不同的场景和数据集。这种新设置减轻了为新数据集获取劳动密集型逐点注释的负担,同时提高了跨数据集的性能。

13. 《学习缩放:生成多极归一化密度图用于人群计数》(20170808)

密集人群计数旨在通过计算图像像素上的密度图的积分,从图像中预测成千上万的人类实例。现有方法主要受到极限密度变化的影响。这样的密度模式偏移即使对于多尺度模型集成也提出了挑战。在本文中,提出了一种简单而有效的方法来解决此问题。首先,通过密度估计模型提取补丁级别的密度图,然后进一步将其分组为在整个数据集中确定的几个密度级别。其次,每个斑块密度图都通过具有多极中心损耗的在线中心学习策略自动归一化。这样的设计可以将密度分布显着地压缩为几个簇,并且可以通过单个模型来学习密度变化。大量实验证明了该方法的优越性。在上海科技大学A部分,上海科技大学B部分,UCF_CC_50和UCF-QNRF数据集上,我们的工作在MAE方面分别比最新技术高4.2%,14.3%,27.1%和20.1%。

14. 《参与计数:具有自适应能力的大规模CNN的人群计数》(20190708)

由于人群分布的巨大差异,人群计数是一项具有挑战性的任务。先前的方法倾向于使用单个固定结构来处理整个图像,该结构无法处理具有不同人群密度的各种复杂场景。因此,提出了自适应容量多尺度卷积神经网络(ACM-CNN),这是一种新颖的人群计数方法,可以为输入的不同部分分配不同的容量。直觉是该模型应关注输入图像的重要区域,并根据人群密集程度优化其容量分配条件。ACM-CNN由三种类型的模块组成:粗略网络,精细网络和平滑网络。粗糙网络用于通过计数注意机制来探索需要聚焦的区域,并生成粗糙特征图。然后,精细网络将关注区域处理为精细特征图。为了减轻由融合引起的分割感,平滑网络被设计为将两个特征图有机地结合起来以生成高质量的密度图。在五个主流数据集上进行了广泛的实验。结果证明了该模型对于密度估计和人群计数任务的有效性。

15.《学习空间意识以提高人群计数》(2090916)

提出了一种称为SPatial Awareness Network(SPANet)的新颖体系结构,该体系结构结合了用于人群计数的空间上下文。为了找到这一点,提出了最大像素溢出(MEP)损失,方法是找到与地面真实情况高度差异的像素级子区域。为此,设计了一种弱监督学习方案,以使用多分支体系结构生成此类区域。提议的框架可以集成到现有的深度人群计数方法中,并且可以进行端到端的培训。在四个具有挑战性的基准上进行的大量实验表明,可以显着提高基准的性能。

16. 《估计人流以更好地计算拥挤场景中的人数》(20191125)

在拥挤的场景中对人进行计数的最新方法依赖于深层网络来估计单个图像中的人的密度。这样,只有极少数的人利用视频序列中的时间一致性,而那些仅对连续帧施加弱的平滑性约束。在本文中,估计连续图像之间的图像位置上的人员流,并从这些流中推断出人员密度,而不是直接对其进行回归,可以施加更大的约束来编码人员数量守恒,从而显着提高性能不需要更复杂的架构。此外,它还使我们能够利用人流和光流之间的相关性来进一步改善结果。

开源项目

0. 从零开始学"人群密度估计"

这是一个关于人群计数/人群密度估计的教程和实战项目。在这个项目中,你可以了解如何通过计算机视觉和深度学习来估计人群场景中的行人数量。

1. 从合成数据中进行人群密度估计(人群计数)。

在本文中,对三个大众数据集进行了实验: Shanghai Tech,UCF_CC_50和WorldExpo'10。 github:https://github.com/gjy3035/GCC-SFCN

常用数据集

1. UCSD数据集:

UCSD数据集(Privacy preserving crowd monitoring: Counting people without people models or tracking)是为人数统计而创建的第一批数据集。数据集是从人行道上的摄像机收集的。该数据集由来自视频序列的2000帧大小238×158 以及每五个帧中每个行人的地面实况(Ground Truth)注释组成。对于其余帧,线性插值用于创建注释。还提供感兴趣区域以忽略不必要的移动物体比如树。该数据集包含总共49,885个行人实例,并将其分为训练和测试集。虽然训练集包含索引为600-1399的帧,但测试集包含剩余的1200个图像。该数据集具有相对低密度的人群,一帧中平均约15人,并且由于数据集是从单个位置收集的,因此图像中的场景透视图没有变化。

2. Mall Dataset

考虑到UCSD数据集中场景类型的微小变化,Chen等在Feature mining for localised crowd counting.收集了一个具有不同光照条件和人群密度的新Mall数据集。使用安装在购物中心中的监视摄像机收集数据集。除了具有各种密度水平外,它还具有不同的活动模式(静止和移动的人群)。另外,数据集中包含的场景具有严重的透视畸变,导致对象的大小和外观的大的变化。该数据集还呈现了由场景对象(例如沿着行走路径的室内植物)引起的严重遮挡的挑战。数据集中的视频序列由2000帧大小为320×240的帧组成,其中标记为行人的6000个实例。前800帧用于训练,剩余的1200帧用于评估。与UCSD数据集相比,Mall数据集具有相对较高的人群密度图像。但是,两个数据集在图像的场景透视图中没有任何变化,因为它们是单个连续视频序列的一部分。

3. UCF_CC_50

UCF_CC_50是第一个真正具有挑战性的数据集(Multi-source multi-scale counting in extremely dense crowd images),包括各种密度和不同的视角失真的不同场景。数据集是从公共可用的Web图像创建的。为了捕捉场景类型的多样性,作者收集了不同标签的图像,如音乐会,抗议,体育场馆和马拉松。它包含总共50个不同分辨率的图像,每个图像平均有1280个人。在整个数据集中共标记了63,075个人。个人数量从94到4543不等,表明图像之间存在很大差异。该数据集的唯一缺点是只有有限数量的图像可用于培训和评估。考虑到图像数量少,作者定义了一种交叉验证协议,用于培训和测试他们的方法,其中数据集被分成10组,并进行5次交叉验证。该数据集带来的挑战是如此巨大,以至于即使最近基于CNN的最先进的方法对该数据集的结果也远非最优。

4. WorldExpo'10

由于一些较早的方法和数据集主要关注单场景计数,Zhang等人引入了一个数据集(Cross-scene crowd counting via deep convolutional neural networks),用于跨场景人群计数。作者试图进行数据驱动的跨场景人群计数,他们收集了一个新的大型数据集,其中包括108个监控摄像头捕获的1132个带注释的视频序列,全部来自2010年上海世博会。通过从具有不相交的鸟瞰图的相机收集视频来确保场景类型的多样性。该数据集包括总共3980个大小为576×720的帧,其中199,923个标记为行人。数据集分为两部分:训练集包括来自103个场景的1127个一分钟长的视频序列和包含来自5个不同场景的5个1小时长视频序列的测试集。每个测试场景由120个标记的帧组成,人群数从1到220不等。

5. ShanghaiTech

Zhang等(Single-image crowd counting via multi-column convolutional neural network)引入了一个新的大规模人群统计数据集,包括1198个图像,330,165个注释头。根据注释人数,数据集是最大的数据集,它包含两部分:A部分和B部分.A部分由482个图像组成,这些图像是从Internet中随机选择的,而B部分是从街道上上海的大都市区。与B部分相比,A部分具有相当大的密度图像。这两部分进一步分为训练和评估集。A部分的训练和测试分别有300和182个图像,而B部分的图像分别有400和316个图像。数据集成功尝试创建具有不同场景类型和不同密度级别的具有挑战性的数据集。然而,各种密度水平的图像数量不均匀,使得训练和评估偏向于低密度水平。然而,该数据集中存在的复杂性,例如不同尺度和透视失真,为更复杂的CNN网络设计创造了新的机会。 A Dataset B Dataset

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published