资源 CIFAR-10数据集
CIFAR-10数据集 介绍 CIFAR-10数据集包含10个类别的60000个32x32彩色图像,每个类别6000个图像。有50000张训练图像和10000张测试图像。 数据集分为五个训练批和一个测试批,每个批次具有10000张图像。测试批包含每个类别中1000个随机选择的图像,训练批按随机顺序取其余图像,但是一个训练批中各类图像的数量不一定相等。但总的训练批中,每个类的图像各5000张。 以下是数据集中的10个类,以及每个类中的10张随机图像: 这些类是完全独立的,互相之间没有重叠。 数据集布局 Python / Matlab版本 存档包含文件data_batch_1,data_batch_2,...,data_batch_5和test_batch。每个文件都是由cPickle生成Python的“ pickled”对象。这是一个python2例程,它将打开这样的文件并返回字典: 和python3版本: 以这种方式加载的每个批处理文件都包含一个具有以下元素的字典: Data:uint8s的10000x3072 numpy数组。阵列的每一行都存储一个32x32彩色图像。前1024个条目包含红色通道值,后1024个包含绿色,最后1024个包含蓝色。图像以行优先顺序存储,因此数组的前32个条目是图像第一行的红色通道值。 labels:10000个数字列表,范围为0-9。索引i处的数字表示数组数据中第i个图像的标签。 数据集包含另一个文件batchs.meta。它也包含一个Python字典对象。它具有以下内容: label_names:由10个元素组成的列表,为上述的labels数组中的数字标签提供有意义的名称。例如,label_names [0] ==“飞机”,label_names [1] ==“汽车”,等等。 二进制版本 二进制版本包含文件data_batch_1.bin,data_batch_2.bin,...,data_batch_5.bin和test_batch.bin。这些文件的每个格式如下: 也就是说,第一个字节是第一张图片的标签,它是0-9范围内的数字。接下来的3072个字节是图像的像素值。前1024个字节是红色通道值,中1024个字节是绿色通道值,最后1024个字节是蓝色通道值。这些值以行优先顺序存储,因此前32个字节是图像第一行的红色通道值。 尽管没有任何分隔行,但是每个文件包含10000个像这样的3073字节 "rows"的图像。因此,每个文件的长度应恰好为30730000字节。 还有一个文件,名为batchs.meta.txt。这是一个ASCII文件,它将0-9范围内的数字标签映射到有意义的类名称。它只是10个类名的列表,每行一个。第i行上的类名称对应于数字标签i。 来源 https://www.cs.toronto.edu/~kriz/cifar.html