0 有用
1 下载

CIFAR-10数据集

文件列表(压缩包大小 499.71M)

免费

概述

CIFAR-10数据集

介绍

CIFAR-10数据集包含10个类别的60000个32x32彩色图像,每个类别6000个图像。有50000张训练图像和10000张测试图像。

数据集分为五个训练批和一个测试批,每个批次具有10000张图像。测试批包含每个类别中1000个随机选择的图像,训练批按随机顺序取其余图像,但是一个训练批中各类图像的数量不一定相等。但总的训练批中,每个类的图像各5000张。

以下是数据集中的10个类,以及每个类中的10张随机图像:

这些类是完全独立的,互相之间没有重叠。

数据集布局

Python / Matlab版本

存档包含文件data_batch_1,data_batch_2,...,data_batch_5和test_batch。每个文件都是由cPickle生成Python的“ pickled”对象。这是一个python2例程,它将打开这样的文件并返回字典:

def unpickle(file):
    import cPickle
    with open(file, 'rb') as fo:
        dict = cPickle.load(fo)
    return dict

和python3版本:

def unpickle(file):
    import pickle
    with open(file, 'rb') as fo:
        dict = pickle.load(fo, encoding='bytes')
    return dict

以这种方式加载的每个批处理文件都包含一个具有以下元素的字典:

  • Data:uint8s的10000x3072 numpy数组。阵列的每一行都存储一个32x32彩色图像。前1024个条目包含红色通道值,后1024个包含绿色,最后1024个包含蓝色。图像以行优先顺序存储,因此数组的前32个条目是图像第一行的红色通道值。

  • labels:10000个数字列表,范围为0-9。索引i处的数字表示数组数据中第i个图像的标签。

数据集包含另一个文件batchs.meta。它也包含一个Python字典对象。它具有以下内容:

  • label_names:由10个元素组成的列表,为上述的labels数组中的数字标签提供有意义的名称。例如,label_names [0] ==“飞机”,label_names [1] ==“汽车”,等等。
二进制版本

二进制版本包含文件data_batch_1.bin,data_batch_2.bin,...,data_batch_5.bin和test_batch.bin。这些文件的每个格式如下:

<1 x label><3072 x pixel>
...
<1 x label><3072 x pixel>

也就是说,第一个字节是第一张图片的标签,它是0-9范围内的数字。接下来的3072个字节是图像的像素值。前1024个字节是红色通道值,中1024个字节是绿色通道值,最后1024个字节是蓝色通道值。这些值以行优先顺序存储,因此前32个字节是图像第一行的红色通道值。

尽管没有任何分隔行,但是每个文件包含10000个像这样的3073字节 "rows"的图像。因此,每个文件的长度应恰好为30730000字节。

还有一个文件,名为batchs.meta.txt。这是一个ASCII文件,它将0-9范围内的数字标签映射到有意义的类名称。它只是10个类名的列表,每行一个。第i行上的类名称对应于数字标签i。

来源 https://www.cs.toronto.edu/~kriz/cifar.html

理工酷提示:

如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku001,并备注:产品反馈

评论(0)

0/250