目标检测任务数据集介绍-PASCAL VOC数据集

最近在做目标检测的相关工作，整理了一下目标检测的数据集，本文就简要介绍目标检测PASCAL VOC数据集，PASCAL VOC比赛在2012年之后已经不再举行了，MS COCO的数据在应用上也替代了VOC数据，不过由于数据量不是很大（VOC2007的数据全部压缩包下载总共869MB，同时也发布了test集的标注数据），在做算法demo或者复现别人算法的时候，使用还是很方便的。

PASCAL VOC数据集

简介
数据下载

VOC 2007
VOC 2012

数据内容

VOC2007

简介

官网地址：http://host.robots.ox.ac.uk/pascal/VOC/
首先，不管想了解什么数据集或是算法，第一个要找的就是官方的/原作者发布的链接。

进入官网，PASCAL VOC的全称为Pattern Analysis, Statistical Modelling and Computational Learning Visual Object Classes。也就是一个目标分类任务。
PASCAL VOC任务做了以下几件事：

提供了一个用于目标类型识别的标准数据集
提供了一个使用该数据集以及标注数据的通用工具
评价不同算法提交的结果的精度
05-12年运营了一个目标识别比赛

目前比赛已经不再进行，但是结果评价服务器仍然可以使用。详实的介绍可以阅读官方文档everingham10、everingham15。分别是10年和15年介绍该项目的官方论文。
VOC比赛数据集也不是一成不变的，随着比赛一直在发展变化，下表简介了VOC数据发展的主要概况。

年份	统计信息	新发展变化	注意
2005	只有四类：自行车、汽车、摩托车、人；训练/验证/测试数据：1578张影像	两个任务：分类和目标检测	数据从现有公开数据得到，内容没有flickr影像丰富，目前该数据集已弃用
2006	10类目标；训练/验证/测试数据：共2618张图片；包含4754个标注目标	数据来自flickr与MSRC数据集	MSRC的数据内容比flickr的单调，目前该数据集也已弃用
2007	20类目标（在后文详细介绍）；训练/验证/测试数据：共9963张图片，包含24640个标注目标	数据类别数量从10增长到20；引入了分割任务、人体部位检测的taster任务；标注数据中加入了Truncation(截断)标签；分类任务的精度评价改成了Average Precison，以前是ROC-AUC	确定了20个类别，以后的数据集都固定为20个类别；这是最后一年公开teset数据标注数据的比赛
2008	20个类别；训练/验证数据与测试数据的比例依旧划分为1:1；训练/测试数据含有4340张图片，包含10363个标注对象	加入了Occlusion标签；test测试数据不再公开；分割和人体部位检测数据集影像包含相应的VOC2007中的图片
2009	20个类别；训练/验证数据集共有7054张图片，包含有17218个ROI标注对象和3211个分割标注	自此以后所有的比赛数据都在前一年影像数据的基础上做增强，之前每年的数据都是全新的；每年影像数量都在增加；分割任务成了一个标准的比赛内容（之前只是一个taster，非正式比赛内容）	difficult标签没有提供；测试数据没有公开
2010	20个类别；训练/验证数据共有10103张图片，包含有23374个ROI标注对象和4203个分割标注	引入了行为分类taster任务；基于ImageNet的大规模分类任务被引入；亚马逊劳务众包平台“Amazon MechanicalTurk”被用于前期标注	改变了计算AP的方法；测试数据集没有公开。
2011	20个类别；训练/验证数据共有11530张图片，包含有27450个ROI标注对象和5034个分割标注	行为分类taster任务扩展到了10个类别+‘其他’类	人体部位标注并不“完全”，只有一部分人标注了人体部位
2012	20个类别；训练/验证数据集有11530张图片，包含有27450个ROI标注对象和6929个分割标注	增加了大量分割数据；在人体活动分类数据集中也标注了相应人体的参考点	分类、目标检测和人体部位检测数据同VOC2011.

注：20个类别如下图所示（everingham10），可以分为四大类：交通工具；房屋设施；动物；人。其中上角标1,2,3分别表示该类别已在2005,2006,2007年中出现，自2007年后20个类别就确定下来，以后VOC数据一直以这20个类别为准。

数据下载

VOC数据集在比赛进行期间，每年都在更换数据，目前使用比较广泛的是07、12的数据，以这两个数据集为例介绍数据下载。

VOC 2007

下载2007数据，首先进入每年的挑战赛网页，点击The VOC2007 Challenge

进入2007挑战赛页面后，在Development Kit下下载所需数据。

需要下载内容（即下载链接，点击以下各部分链接可直接下载）：

训练/验证数据集 training/validation data (450MB tar file)
测试数据 annotated test data(430MB tar file) VOC2007数据集公开了测试集的标注数据
开发工具代码及说明文档development kit code and documentation(250KB tar file)
数据说明文档PDF documentation(120KB PDF)

下载后的压缩文件如图所示：

VOC 2012

同2007数据，首先进入每年的挑战赛网页，点击The VOC2012 Challenge.
进入2012挑战赛页面后，找到数据Data介绍部分。

训练/验证数据的下载与使用工具development kit的下载在一起链接

这里我们需要下载三个部分：

训练和验证数据集training/validation data (2GB tar file)
开发工具代码和文档development kit code and documentation (500KB tar file)
PDF说明文档PDF documentation (500KB PDF)

数据内容

VOC2007

以2007年数据为例介绍VOC的数据内容与数据结构。
VOC2007总共有四个任务：Classification（分类）；Detection（目标检测）；Segmentation Taster（分割）；Person Layout Taster（人体部位识别）。

首先解压缩所有的下载压缩包，trainval、test、devkit，在同一个文件夹中解压缩到当前目录，会自动将所有的内容都解压缩在一个VOCdevkit文件夹中。

VOCdevkit文件夹的目录结构如下：

其中local和results为比赛提交数据所需文件，我们只关注存储数据集的其他两个文件。VOC2007中存储的即为数据集，VOCcode文件夹以及其他.m文件为使用工具的matlab的代码。

进入VOC2007文件夹，依次查看其中的内容。
Annotations中存储的是.xml文件，即标注数据，标注了影像中的目标类型以及边界框bbox；
ImageSet中存储的都是一些txt文件，其实就是各个挑战任务所使用的图片序号，VOC比赛是将所有的图片存在一起，然后不同的挑战任务使用的图片就用一个txt存储使用图片的文件名即可；
JPEGImages文件夹中存储了数据集的所有图片；
SegmentationClass存储了类别分割的标注png。
SegmentationObject存储了实例分割的标注png。两者的区别是类别分割只区分物体的类别，同样类别的两个不同物体的像素分配同一个值；而实例分割不只区分目标的类别，而且同样类别的两个不同的对象，也要进行区分。例如两个人，在类别分割中都标注为person，而实例分割就需要分割为person1、person2.

Annotations
Annotations文件夹中为记载了标注信息的xml文件。

打开000001.xml文件，该xml文件名同标注的图像文件名，其内容如下：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44

<annotation>
<folder>VOC2007</folder>
<filename>000001.jpg</filename>
<source>
<database>The VOC2007 Database</database>
<annotation>PASCAL VOC2007</annotation>
<image>flickr</image>
<flickrid>341012865</flickrid>
</source>
<owner>
<flickrid>Fried Camels</flickrid>
<name>Jinky the Fruit Bat</name>
</owner>
<size>
<width>353</width>
<height>500</height>
<depth>3</depth>
</size>
<segmented>0</segmented>
<object>
<name>dog</name>
<pose>Left</pose>
<truncated>1</truncated>
<difficult>0</difficult>
<bndbox>
<xmin>48</xmin>
<ymin>240</ymin>
<xmax>195</xmax>
<ymax>371</ymax>
</bndbox>
</object>
<object>
<name>person</name>
<pose>Left</pose>
<truncated>1</truncated>
<difficult>0</difficult>
<bndbox>
<xmin>8</xmin>
<ymin>12</ymin>
<xmax>352</xmax>
<ymax>498</ymax>
</bndbox>
</object>
</annotation>

依次查看存储内容：
folder、filename为路径和文件名；
source存储了文件来源相关信息；
owner为文件所有者；
以上为标注图片的相关背景信息，可不专门关注；
size存储了文件大小 width宽度、height高度、depth维度（即灰度图像或RGB三通道）
segmentation为1、0值判断该图片是否参与分割任务；
object为一个标注对象的相关信息，此处为文件主要信息，
name 对象名，pose 观察角度（应用于某些分类器从特定的视觉角度分类目标），truncated 标注对象是否为截断的（如标注对象的bbox标注区域由于遮挡或其他问题只为目标整体的一部分，则该标注为1，反之为0），difficult 是否为识别困难目标
bndbox为边界框坐标，分别为左上角和右下角的x，y坐标
然后依次记录每个object的标注信息。
以上即为xml目标检测标注文件中的内容，主要关注1.文件名filename即标注图片名（同xml文件名），2.object标注信息中的name对象名与bndbox边界框坐标。两个信息即可。
其中Layout人体部位识别任务的标注信息也在xml文件中。以000058.jpg图片为例。

其标注文件000058.xml内容中除了与目标检测任务相同的信息为，还有人体部位part数据，在一个person类object中，part数据分别标注了head、hand、foot三个部位的bndbox边界框：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48

ImageSets
IamgeSet文件夹中以txt文件存储各个挑战任务所使用的图片。
进入main目录下的trainval.txt，文件信息即为目标检测train训练与val验证数据集所使用的图片:
JPEGImages
该文件夹中存储了数据集所有的图片，共9963张图片。
SegmentationClass
SegmentationObject
这两个文件夹一个存储语义分割信息，一个存储实例分割信息。两个的区别是，语义分割只分割对象的类别，不区分是否是同一个实例对象；而实例分割，将相同类别的两个对象以不同的标签标注，例如两个人 person类别在语义分割中均为person，而在实例分割中标注为person-1，person-2.
如下图第一行为SegmentationClass文件，第二行为SegmentationObject，第三行为相应的JPEGImages。